BGE向量模型近期迎来重大更新,包括多模态、代码和重排功能。BGE-Code-v1专为代码检索设计,基于Qwen2.5-Coder-1.5B,擅长多语言文本理解,在CoIR和CodeRAG测试中表现卓越。BGE-VL-v1.5基于LLaVA-1.6,显著提升图文理解和检索能力,在MMEB测试中刷新zero-shot模型最佳表现。BGE-VL-Screenshot适用于可视化信息检索,基于Qwen2.5-VL-3B-Instruct,在MVRB测试中综合得分登顶SOTA。这些更新拓展了BGE模型的应用场景。
💻BGE-Code-v1:专为代码检索任务设计,基于Qwen2.5-Coder-1.5B开发,具备强大的多语言文本理解能力,适用于开发文档搜索、代码库语义检索、跨语言信息获取等场景,并在CoIR和CodeRAG基准测试中表现优异。
🖼️BGE-VL-v1.5:基于LLaVA-1.6(7.57B参数)训练,显著提升了图文理解能力和检索能力,适用于图文匹配、多模态问答、跨模态推荐等场景,并在MMEB基准测试中刷新了zero-shot模型的最佳表现,并在检索任务上登顶SOTA。
📸BGE-VL-Screenshot:基于Qwen2.5-VL-3B-Instruct开发,适用于可视化信息检索(Vis-IR)任务,如截图检索、复合截图检索、截图QA和开放分类等,特别适用于网页、文档等多模态任务,在MVRB基准测试中表现出色,综合得分达到60.61,登顶SOTA。
2025-05-22 11:54 广东

近期,bge向量模型来了一波大的更新:多模态、code、重排(段落、文档)。

基于Qwen2.5-Coder-1.5B开发,专为代码检索任务设计,具备强大的多语言文本理解能力。模型在CoIR和CodeRAG基准测试中表现优异,超越谷歌、Voyage AI等模型。

基于LLaVA-1.6(7.57B参数)训练,显著提升了图文理解能力和检索能力。模型在MMEB基准测试中刷新了zero-shot模型的最佳表现,并在检索任务上登顶SOTA。

基于Qwen2.5-VL-3B-Instruct开发,适用于网页、文档等多模态任务。模型在MVRB基准测试中表现出色,综合得分达到60.61,登顶SOTA。

https://huggingface.co/BAAI
https://huggingface.co/BAAI/bge-code-v1
https://huggingface.co/BAAI/Matroyshka-ReRanker-document
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。




阅读原文
跳转微信打开