Jina AI 2025-07-03 20:25 浙江
全新的多模态向量模型,参数规模达到 38 亿,首次实现了对文本与图像的同步处理
jina-embeddings-v4
,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。
🔍 jina-embeddings-v4 是一款参数规模达 38 亿的多模态向量模型,首次实现了对文本与图像的同步处理,在多项基准测试中展现了顶尖性能,尤其在视觉文档检索和多语言检索任务上表现出色。
🤖 该模型基于多模态语言模型 Qwen2.5-VL-3B-Instruct 构建,通过统一的路径处理文本与图像输入,并集成了三个针对特定任务的 LoRA 适配器,专门用于优化检索、文本匹配和代码任务。
🌐 jina-embeddings-v4 支持单向量和多向量表示,灵活满足各种场景需求。单向量模式生成 2048 维向量,用于高效的相似性搜索;多向量模式为每个词元生成 128 维向量,适用于需要深度交互的“迟交互”检索策略。
🚀 jina-embeddings-v4 的综合性能已全面超越来自主流供应商的顶尖闭源模型,在多语言检索、长文档任务和代码检索方面均取得了显著的性能提升,是当今最强大的开源通用向量模型之一。
Jina AI 2025-07-03 20:25 浙江
全新的多模态向量模型,参数规模达到 38 亿,首次实现了对文本与图像的同步处理
jina-embeddings-v4
,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。jina-embeddings-v4
在多模态、多语言检索任务上均展现了顶尖性能。它尤其擅长解读富含视觉信息的内容,无论是表格、图表还是复杂的示意图,都能精准捕捉其深层语义。此外,模型还同时支持单向量和多向量表示,灵活满足各种场景需求。jina-embeddings-v4
在视觉文档检索和多模式基准中的性能这张箱形图直观地衡量并对比了各向量模型在六大基准类别中的平均得分与性能波动。这些类别覆盖了视觉文档检索(ViDoRe、Jina-VDR)、多语言图文匹配(维基共享资源检索)、代码文档检索(GitHub README)、金融图表分析(Tweet Stock)以及通用图文检索(CLIP)。图中,用青色高亮标出了jina-embeddings-v4
的各个版本。结果显示,jina-embeddings-v4
在处理富视觉文档任务时展现出顶尖性能。其中,其多向量版本不仅在专业的视觉文档基准上取得了最高分(ViDoRe 90.2 分,Jina-VDR 80.2 分),同时在通用的多模态检索任务(CLIP 84.1 分)上也保持了强大的竞争力。所有模型均依据其在各基准类别中的平均性能进行排名。jina-embeddings-v4
是Jina迄今为止最具突破性的一款向量模型。作为一款开源模型,它的性能表现已全面超越来自主流供应商的顶尖闭源模型:在多语言检索方面,其性能比 OpenAI 的 text-embedding-3-large 高出 12%(66.49 vs 59.27)。在长文档任务上,性能提升了 28%(67.11 vs 52.42)。在代码检索方面,效果比 voyage-3 好 15%(71.59 vs 67.23)其综合性能,也能和谷歌的 gemini-embedding-001 模型并驾齐驱。这一系列卓越表现使得 v4 成为当今最强大的开源通用向量模型。它为研究者和开发者提供了企业级的多模态向量能力。同时,研究团队发布了详尽的技术报告,完全公开了模型的训练过程、架构决策和模型权重,以确保研究与开发工作的完全可复现性。技术报告:https://arxiv.org/abs/2506.18902jina-embeddings-v4
在五大检索基准上的性能表现该张箱形图展示了各模型在文本检索、代码检索、多语言检索、长上下文检索以及语义文本相似度(STS)五个基准上的平均分。图中以青色高亮标出的jina-embeddings-v4
,在所有评估类别中均展现出顶尖的性能,尤其在文本检索和 STS 任务上成果斐然。依据各模型在所有基准类别中的平均性能对其进行排名,图中分散的数据点则具体显示了模型在各项评估任务上的分数分布。全新架构jina-embeddings-v4
架构图jina-embeddings-v4
基于拥有 38 亿参数的多模态语言模型 Qwen2.5-VL-3B-Instruct构建,是一个多模态语言模型。它通过一条共享路径处理文本与图像输入:首先,视觉编码器将图像转换为词元(token)序列;随后,语言模型的解码器通过上下文注意力层,对两种模态进行联合处理。模型集成了三个针对特定任务的 LoRA 适配器(每个含 6000 万参数),专门用于优化检索、文本匹配和代码任务,且无需修改已冻结的骨干网络权重。该架构支持两种输出模式:单向量模式:通过平均池化生成一个 2048 维的向量(可截断至 128 维),用于高效的相似性搜索。多向量模式:通过投影层为每个词元生成一个 128 维的向量,适用于“迟交互”(Late Interaction)检索策略。从jina-embeddings-v3
到 v4 的升级,标志着模型从纯文本向量向多模态向量的范式转换。v3 的重心在于利用特定任务的 LoRA Adapter 优化文本向量,而 v4 则通过统一的表示形式,同时满足处理文本与视觉内容的需求。维度
jina-embeddings-v3
jina-embeddings-v4
骨干模型 (Backbone)
基础参数量
5.59 亿
38 亿
总参数量 (含适配器)
5.72 亿
38 亿 + 每个适配器 6000 万
模态
仅文本
文本 + 图像 (多模态)
最大文本上下文
8192 Tokens
32768 Tokens
图像处理能力
无
最高 2000 万像素,支持富视觉文档
多语言支持
89 种语言
29+ 种语言
向量类型
仅单向量 (Single-vector)
单向量 + 多向量 (Late Interaction,迟交互)
单向量维度
1024 (支持 MRL 截断至 32)
2048 (支持 MRL 截断至 128)
多向量维度
不支持
每 Token 128 维
任务 LoRA 适配器
• 非对称检索• 文本匹配• 分类• 聚类
• 非对称检索• 文本匹配• 代码检索
训练阶段
三阶段:预训练 → 向量微调 → 适配器训练
两阶段:联合配对训练 → 任务适配器训练
损失函数
InfoNCE, CoSent, 扩展三元组损失
联合 InfoNCE + KL 散度 (用于单/多向量)
位置编码
RoPE
(多模态旋转位置编码)
跨模态处理
不适用
统一编码器 (缩小模态鸿沟)
MRL 支持
是
是
注意力实现
FlashAttention2
FlashAttention2
jina-embeddings-v4
的强大性能。已预置了官网的文档图像,您也可以直接添加自己的图像 URL 进行测试。输入查询后,即可实时查看检索和排序结果。该演示支持多语言查询,您可以像使用 OCR 或内容检索引擎一样,自由探索其功能。演示地址:https://jina.ai/api-dashboard/m0-image-rerank请注意:该演示会消耗您 Jina API Key 的 Token 余额。此外,演示需要实时从 URL 下载图像且未设置缓存,因此响应可能存在延迟。API通过 API,您可以轻松调用jina-embeddings-v4
模型,处理文本、Base64 图像或图像 URL。新用户访问官网可领取包含 1000 万免费 Token 的 Jina API Key。官网:https://jina.ai/embeddings/由于 GPU 资源所限, API 服务目前支持最高 8K Token 的上下文长度,足以满足大多数应用场景。对于需要处理更长文档(jina-embeddings-v4 原生支持高达 32K Token)的场景,推荐以下部署方式:1. 通过云服务市场 (CSP)jina-embeddings-v4 即将登陆 AWS、Azure 和 GCP 的官方市场 (Marketplace)。届时,您可以直接在云平台上订阅和部署模型,具体定价请参考相应市场的发布页面。2. 使用开源模型本地部署模型已在 Hugging Face、ModelScope 完全开源,方便开发者伙伴用于研究、实验或本地部署,官方还提供了一个 Google Colab Notebook,助您快速上手并探索其具体用法:curl https://api.jina.ai/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer JINA_API_KEY" \ -d @- <<EOFEOF { "model": "jina-embeddings-v4", "task": "text-matching", "input": [ { "text": "A beautiful sunset over the beach" }, { "text": "Un beau coucher de soleil sur la plage" }, { "text": "海滩上美丽的日落" }, { "text": "浜辺に沈む美しい夕日" }, { "image": "https://i.ibb.co/nQNGqL0/beach1.jpg" }, { "image": "https://i.ibb.co/r5w8hG8/beach2.jpg" }, { "image": "iVBORw0KGgoAAAANSUhEUgAAABwAAAA4CAIAAABhUg/jAAAAMklEQVR4nO3MQREAMAgAoLkoFreTiSzhy4MARGe9bX99lEqlUqlUKpVKpVKpVCqVHksHaBwCA2cPf0cAAAAASUVORK5CYII=" } ] }EOFEOF
请注意,模型遵循 CC-BY-NC-4.0 许可协议,仅限于非商业用途。如需商业授权,请通过邮件 sales@jina.ai 联系官方获取。结论https://colab.research.google.com/drive/1fb8jGCDPf-MXUnyXt-DNoe8_hmBDpDrl#scrollTo=M54aS0TvApyi
jina-embeddings-v4
是Jina迄今最重大的飞跃。这款 38 亿参数的通用向量模型,以统一路径处理文本与图像,同时驾驭稠密检索与“迟交互检索”两种模式。在富视觉文档检索等任务上,它的表现已全面超越谷歌、OpenAI 及 Voyage AI 的闭源模型。这项能力凝聚了研究团队通过四代模型迭代,攻克一系列基础性难题的心血。2022 年,当启动 v1 时,行业信奉“数据越多,性能越好”。Jina反其道而行之,证明了 精选胜于堆量:从 15 亿数据对中精炼出 3.85 亿高质量样本,性能远超更庞大的数据集。Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models🔗 https://arxiv.org/abs/2307.11224v2 则解决了 512 Token 的上下文瓶颈。 没有采用高成本的长序列训练,而是通过“短训长用”(train short, deploy long)的巧思,借助 ALiBi 算法,让一个仅在 512 词元上训练的模型,推理时能无缝处理 8192 词元的超长序列,用更少的计算撬动了更强的能力。
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents🔗 https://arxiv.org/abs/2310.19923v3 应对了不同任务需要不同优化的新挑战。 没有重复造轮,而是在 v3 中另辟蹊径:通过多个 LoRA 适配器,为一个基础模型赋予定制化的任务能力,只增加了。就这样,一个模型灵活地化身为五个专用模型,而额外开销极低。
jina-embeddings-v3: Multilingual Embeddings With Task LoRA🔗 https://arxiv.org/abs/2409.10173但模型依然停留在纯文本领域。基于 CLIP 的标准模型因为采用分离的编码器,会造成“模态鸿沟”。为此,v4 借鉴了
jina-reranker-m0
的思路,彻底解决了这个问题:用一条统一的路径处理所有内容,从根源上消除鸿沟,而非在后期弥合。jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval🔗 https://arxiv.org/abs/2506.18902jina-embeddings-v4 与 jina-reranker-m0 的背后,是 Jina AI 核心思路的转变:转向使用大语言模型(LLM)作为基座模型,而不再坚守纯编码器架构。这一转变的价值在于,它解决了纯编码器架构的固有缺陷“模态鸿沟”,图像和文本的向量簇彼此分离。而基于 LLM 构建则让真正的混合模态表示成为了可能,也为提升模型的可解释性打开了大门。研究团队的核心洞见是:表达(Representation)与生成(Generation)同根同源,本质都是对语义的深度理解。 一个擅长内容生成的大模型,也天然擅长构建精准的向量表达。这样在大模型领域的的每一次技术突破,都能直接惠及建立其上的向量模型,而纯编码器的模型则无法享受这一红利。研究团队坚信,未来属于统一的架构。在这一架构中,向量模型和重排器都将源自同一个通用搜索底座。而这,正是 Jina AI 全力以赴的方向。点击阅读原文,即可跳转模型链接~
👇点击关注ModelScope公众号获取
更多技术信息~
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑