PaperAgent 2024年09月20日
Jina又开源向量V3,8K长度,卷疯了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Jina AI发布了jina-embeddings-v3,一个拥有5.7亿参数的文本向量模型,在多语言数据和长文本检索任务上取得了最先进的性能。它支持长达8192个token的输入长度,并集成了针对特定任务的LoRA适配器,适用于查询检索、文档检索、聚类、分类和文本匹配等任务。该模型在MTEB英语、多语言和LongEmbed评估中表现出色,超越了OpenAI和Cohere的最新专有向量模型,并支持89种语言,包括中文。

🚀 **多语言支持和长文本检索:** jina-embeddings-v3支持89种语言,包括中文,并能够处理长达8192个token的输入,使其在多语言数据和长文本检索任务上表现出色。

🎯 **特定任务的LoRA适配器:** 该模型集成了五个针对特定任务的LoRA适配器,包括查询检索、文档检索、聚类、分类和文本匹配。这些适配器能够根据任务需求生成高质量的嵌入,提高模型的效率和准确性。

📈 **性能超越同类模型:** jina-embeddings-v3在MTEB英语、多语言和LongEmbed评估中展现出优异的性能,超越了OpenAI和Cohere的最新专有向量模型,并在少于10亿参数的MTEB英语排行榜上排名第二。

🧠 **高效的模型结构:** jina-embeddings-v3基于XLM-RoBERTa模型,并进行了关键修改,使其能够有效地编码长文本序列,支持特定任务的嵌入编码,并通过最新技术提高整体模型效率。

💡 **灵活的维度和可扩展性:** 该模型支持灵活的维度(32, 64, 128, 256, 512, 768, 1024),用户可以根据需求调整嵌入维度,而不会牺牲性能。它也比从大型语言模型(LLMs)微调的嵌入模型要小得多,使其更加高效和易于部署。

2024-09-19 21:11 湖北

利好RAG、Agent,多语言、5个LoRA:查询检索、文档检索、聚类、分类和文本匹配

Jina AI宣布推出jina-embeddings-v3,一个拥有5.7亿参数的前沿文本向量模型。它在多语言数据长文本检索任务上实现了最先进的性能,支持长达8192个token的输入长度。该模型具有针对特定任务的低秩适应(LoRA)适配器,使其能够为各种任务生成高质量的嵌入,包括查询检索、文档检索、聚类、分类和文本匹配

向量模型的规模法则(Scaling Law)。在英语任务上的平均MTEB性能与模型参数数量对比图。可以看出,jina-embeddings-v3与相似大小的模型相比展现出了更优越的性能,同时也显示出比其前身jina-embeddings-v2有超线性的提升。

在MTEB英语、多语言和LongEmbed的评估中,jina-embeddings-v3在英语任务上超越了OpenAI和Cohere的最新专有向量模型,同时在所有多语言任务上也超过了multilingual-e5-large-instruct。

得益于套娃式表征学习(Matryoshka Representation Learning, MRL)的集成,用户可以将嵌入维度任意截断至32,而不会牺牲性能,默认输出维度为1024,支持灵活的维度(32, 64, 128, 256, 512, 768, 1024)

截至2024年9月18日发布,jina-embeddings-v3是最佳的多语言模型,在少于10亿参数的MTEB英语排行榜上排名第二。v3总共支持89种语言,包括中文。

jina-embeddings-v3模型结构

为了实现骨干架构,对XLM-RoBERTa模型进行了几项关键修改:

继续使用原始的XLM-RoBERTa分词器。尽管拥有5.7亿参数的jina-embeddings-v3比拥有1.37亿参数的jina-embeddings-v2要大,但它仍然比从大型语言模型(LLMs)微调的嵌入模型要小得多。

jina-embeddings-v3的架构

jina-embeddings-v3的关键创新是使用了LoRA适配器。引入了五个特定任务的LoRA适配器,LoRA适配器占总参数的不到3%,对计算的开销非常小。模型的输入由两部分组成:文本(要嵌入的长文档)和任务

5个任务task类型描述

https://arxiv.org/pdf/2409.10173https://hf-mirror.com/jinaai/jina-embeddings-v3jina-embeddings-v3: Multilingual Embeddings With Task LoRA

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Jina AI 文本向量模型 多语言 LoRA 长文本检索
相关文章