Jina AI 05月14日 20:10
Jina AI 携搜索小模型亮相 ICLR 2025 新加坡
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Jina AI 将在 ICLR 2025 会议上展示其在多模态搜索领域的最新研究成果。 团队将发布三篇论文,重点关注更小巧、更高效的多模态搜索模型。 其中包括改进 CLIP 模型跨模态对齐、研发统一文本和图像的多语言多模态向量模型 jina-clip-v2,以及 ReaderLM-V2,一个专注于 HTML 转换的小型语言模型。这些研究展示了 Jina AI 在推动搜索技术边界上的努力, 并将在会议上与全球 AI 研究者交流。

💡 论文一的核心在于改进 CLIP 模型的跨模态对齐。研究发现,模态鸿沟是限制 CLIP 性能的关键瓶颈,简单的向量平移无法解决问题。Jina AI 提出通过共享编码器参数,并结合分离式目标函数进行语义正则化的方法,以拉近不同模态表征间的距离,从而提升模型性能。

🌐 论文二介绍了 jina-clip-v2 模型,该模型能够统一处理文本和跨模态检索任务,简化了部署复杂性。 此外,jina-clip-v2 采用图像分辨率动态调整策略,提升对复杂视觉文档的理解力。它还利用 Matryoshka 表示学习技术,实现向量长度可变,用户可灵活选择效率与精度之间的平衡。

🤖 论文三聚焦于 ReaderLM-V2,一个参数量仅为 15 亿的小型语言模型,专注于 HTML 到 Markdown 和 JSON 的转换。 它在处理网页内容提取方面表现出色,甚至超越了 GPT-4o 等大型模型。 该模型采用了 Jina AI 独创的三阶段数据合成策略,以及自对弈式迭代学习方法,使其性能持续提升。

原创 Jina AI 2025-04-11 16:23 北京

比四月的新加坡更火热的是

四月,机器学习领域的目光将汇聚新加坡,顶级会议 ICLR 2025 定于 4 月 24 日至 28 日在新加坡博览中心举行。

当大家都在追逐大模型时,Jina AI 将带来不一样的声音:我们聚焦于更小巧、更高效的多模态搜索模型。

这次,我们的研发团队将带着 3 篇重磅论文空降狮城,分享 Jina AI 在这一方面的最新突破。团队成员 Sedigheh Eslami、Andreas Koukounas、王峰以及 CEO 肖涵将在现场,与全球 AI 研究者同台交流。

三篇硬核论文,三个研究亮点

论文一:对齐 CLIP 中的图像和语言模态

标题:Mitigate the Gap: Improving Cross-Modal Alignment in CLIP(弥合鸿沟:改进 CLIP 中的跨模态对齐)

时间:4 月 26 日 10:00-12:30

形式:Poster 报告

论文链接https://arxiv.org/abs/2406.17639

CLIP 模型在图文理解任务上表现亮眼,但其内部存在一个常被忽视的“模态鸿沟”:图像和文本的向量各自占据不同的领地这项研究直面这一核心挑战,揭示了模态鸿沟正是限制 CLIP 性能的关键瓶颈之一。

我们发现,简单的向量平移并不能解决问题,反而会破坏向量空间的结构。为此,我们提出了一种创新方法:通过共享编码器参数,并结合一种分离式的目标函数进行语义正则化,双管齐下。

实验结果证明,该方法成功地拉近了不同模态表征间的距离,有效缓解了模态割裂问题,并显著提升了模型在多个下游任务中的表现。这表明,参数共享与语义分离的结合,是打通跨模态理解壁垒的有效途径。

关键洞见:

    模态鸿沟竟是 CLIP 模型性能瓶颈的关键所在
    简单平移向量只会破坏向量空间的相对关系结构
    参数共享+语义分离双管齐下,才是解决模态割裂的有效途径

论文二:还是 CLIP,多模态多语言多功能

标题jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images(jina-clip-v2:统一文本和图像的多语言多模态向量模型)

时间:4 月 28 日 10:40-11:50

形式:口头报告

论文链接https://arxiv.org/abs/2412.08802

    这是一项"一箭双雕"的研究,我们团队研发的 jina-clip-v2 模型不仅精于跨模态检索,在纯文本检索任务上的表现也足以媲美专业文本模型。

    其核心在于多任务、多阶段的对比学习框架,并通过融合 Matryoshka 表示学习(MRL)技术,生成的向量可以按需截断。用户可以根据实际应用场景(例如,快速预览 vs. 精确匹配)选择不同长度的向量,在高性能与低存储成本间灵活权衡。此外,模型还具备出色的多语言处理能力。

    关键洞见:

      一个模型统一处理文本和跨模态检索,极大简化部署复杂性。
      创新的图像分辨率动态调整策略,大幅提升对复杂视觉文档的理解力。
      Matryoshka 技术让向量长度可变,用户可按需截断,灵活选择效率与精度的平衡点。

    论文三:Jina Reader 幕后的小模型大英雄

    标题:ReaderLM-V2: Small Language Model for HTML to Markdown and JSON(ReaderLM-V2:HTML 转 Markdown 和 JSON 的小语言模型)

    时间:4 月 28 日 15:00-16:00

    形式:Poster 报告

    论文链接https://arxiv.org/abs/2503.01151

    ReaderLM-V2 以其仅 15 亿参数的紧凑体量,在网页内容提取方面表现惊人。它能精准解析复杂 HTML,并将其转换为干净的 Markdown 或 JSON 格式,即使长达 512K tokens 也游刃有余。

    在这个高度垂直的任务上,ReaderLM-V2 的表现甚至超越了像 GPT-4o 这样的业界领先大模型,同时效果提升显著。

    该模型的成功得益于两大关键创新:一是 Jina AI 团队独创的三阶段数据合成策略,通过“起草-精炼-评判”循环生成高质量、多样化的训练样本;二是统一的训练框架,支持自对弈式迭代学习,使模型能够不断从自身错误中学习和改进,不断突破性能极限。

    关键洞见:

      专注特定任务的小模型,其性能和效率能够完胜通用大模型。
      "起草-精炼-评判"的迭代数据合成方法成为提升数据质量的制胜法宝
      自对弈式迭代训练让模型不断自我进化,性能持续攀升

    遇见 Jina AI,遇见最好的搜索

    以上三项研究代表了 Jina AI 在构建搜索基座模型上的最新进展,我们致力于推动搜索技术的边界。

    如果您也将参加 ICLR 2025,欢迎在会场找到我们的团队成员,与我们一起深入探讨对 AI 搜索的研究洞见。

    除了技术的交流,我们也非常乐意介绍 Jina AI 的工作与实习机会,并为您准备了精美的纪念品。期待在新加坡与您相见!

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    Jina AI ICLR 2025 多模态搜索 CLIP ReaderLM-V2
    相关文章