Cnbeta 05月10日 10:03
阿里开源“零搜索”技术 训练成本直降88% 准确度超Google搜索
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴达摩院的“零搜索”技术突破AI训练成本难题,通过模拟搜索引擎训练机制,使大模型无需调用真实搜索引擎API即可自主进化检索能力。该技术打破了对科技巨头API的依赖,开发者可精准控制训练数据质量。开源代码已登陆GitHub和Hugging Face平台,支持多种主流架构。实验显示,基于“零搜索”技术训练的大模型在搜索准确率上超越Google,且训练成本直降近九成,为AI产业带来低成本自主进化的新可能。

💡“零搜索”技术的核心在于通过模拟搜索引擎训练机制,使大模型在无需调用真实搜索引擎API的情况下,实现自主进化检索能力,从而突破了传统AI训练对外部API的依赖。

💰成本大幅降低:研究显示,使用“零搜索”技术后,原本需要花费586.70美元的商业搜索引擎API调用开销,现在仅需70.80美元即可完成同等量级的训练任务,成本节省高达88%。

✅性能超越Google:在包含NQ、TriviaQA等七大主流问答数据集的综合测评中,基于“零搜索”技术训练的140亿参数大模型,不仅搜索准确率力压Google,还在数学视觉推理测试中表现出色。

🌐开源与应用:目前,“零搜索”技术的开源代码已登陆GitHub和Hugging Face平台,支持Qwen-2.5、LLaMA-3.2等主流架构,为初创企业提供了低成本搭建高精度训练环境的可能性。

阿里巴巴5月7日发表于arXiv的论文透露,阿里巴巴达摩院研发的“零搜索”(ZeroSearch)技术突破性破解AI训练成本困境。该技术能通过模拟搜索引擎训练机制,使大模型在无需调用真实搜索引擎API的情况下自主进化检索能力。


▲阿里巴巴达摩院研究团队发表于arXiv的论文原文

“零搜索”技术打破依赖科技巨头的API经济模式,开发者可精准控制训练数据质量。目前开源代码已登陆GitHub和Hugging Face平台,涵盖Qwen-2.5、LLaMA-3.2等主流架构,支持基础版和指令微调版模型。初创企业可用四块A100显卡搭建高精度训练环境。

在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流问答数据集的综合测评中,基于“零搜索”技术训练的140亿参数大模型不仅搜索准确率力压Google,更实现训练成本直降近九成。


▲arXiv论文原文中的七大主流问答数据集的综合测评图表

据VentureBeat今天报道,原本需要调用商业搜索引擎API的586.70美元(折合人民币约为4240.74元)开销,如今仅需70.80美元(折合人民币约为510.17元)即可完成同等量级训练任务。这项创新让AI模型在“自我模拟”(self-simulated)中获得出类似搜索搜索引擎的检索能力。

一、 “零搜索” 技术成本大降超八成,性能超越Google搜索

研究人员使用SerpAPI调用Google搜索服务作为对照组,通过模拟传统AI训练流程中调用商业搜索引擎API的场景,与“零搜索”技术方案进行成本对比。

研究人员测算,使用SerpAPI调用Google搜索处理约6.4万次查询,成本约为586.70美元(约合人民币为4228.82元);而在四块A100 GPU上运行14B参数的大语言模型,仅需70.80美元(折合人民币约为510.43元),节省幅度高达88%。

据TechCrunch 2024年11月报道,从目前存在的一些公开信息透露,SerpAPI旨在帮助开发者绕过复杂的网页解析流程,SerpAPI能通过API调用获取Google、Bing、百度等主流搜索引擎的搜索结果数据。

SerpAPI的实际企业用户包括Jasper.ai、Copy.ai等AI初创公司,这些企业通过API接口获取实时搜索结果训练对话系统,但具体成本数据未被披露。

二、阿里大模型能生成拟真文档,较GoogleAPI节省88%开支

阿里巴巴的研究团队发现,经过海量预训练的大模型已具备拟真文档生成能力。通过监督微调将大语言模型转化为检索模块,能按需生成相关或无关文档组合。

在强化学习阶段,系统通过渐进式降低生成文档质量的“教学方案”,迫使模型持续优化检索精度,形成自主进化闭环。

据VentureBeat今天报道,在TriviaQA等7个主流问答数据集测试中,基于通义千问2.5、LLaMA3.2等架构的模在数学视觉推理测试中得分超过OpenAI o1,展现了强大的图形与数学结合的分析能力。14B参数模型在事实准确性指标上超越Google搜索2.3个百分点,7B模型与商业引擎持平。相同训练量下模拟方案较Google搜索API节省88%开支。

结语:“零搜索”技术推动AI产业进入低成本自主进化阶段

阿里巴巴达摩院的突破可能是AI训练范式的重要转折。当大模型能在封闭系统内模拟现实世界的信息交互,用户得以摆脱对外部服务的依赖,这对数据安全、训练可控性及技术民主化或具有深远意义。

从行业发展趋势来看,“零搜索”技术有望对AI开发价值链产生深远影响。随着自模拟技术成熟,未来,或将涌现更多AI训练方案,推动产业进入低成本自主进化的新阶段。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

零搜索 AI训练 成本降低 阿里巴巴 大模型
相关文章