夕小瑶科技说 01月27日
我用几道测试题,发现这家公司把大模型RAG能力卷出了新高度!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文通过一系列真实用户案例,深入测评了百度文心、Kimi和豆包三大模型的RAG(检索增强生成)能力。测试维度包括时效性、权威性和全面性,涵盖体育、娱乐、春运、社保、专业文献等多个领域。结果显示,百度文心在RAG技术方面表现突出,尤其是在信息时效性和准确性上。文章还探讨了RAG技术背后的语义检索、向量数据库等关键技术,并指出百度在搜索领域的技术积累和工程能力是其RAG能力领先的重要原因。百度通过深度融合大模型和搜索系统,构建了“理解-检索-生成”的协同优化技术,并迭代了“AIAPI”的AI原生检索系统,从而在RAG方面形成了竞争壁垒。

⏱️时效性是RAG的关键:大模型需要能够检索并提供最新的信息,避免过时内容。例如,在澳网比赛和杨幂近况的案例中,时效性是重要的考量因素。

🔍全面性与事实性:RAG不仅要提供准确的信息,还要尽可能全面地覆盖问题的所有方面,避免遗漏关键信息。在春运人流和北京庙会案例中,全面性至关重要。

📚专业知识与文献检索:对于专业领域的问题,RAG需要具备检索和理解专业文献的能力。茶褐素解酒案例中,对专业文献的检索和解读能力体现了RAG的深度。

🔗百度RAG技术优势:百度在语义检索和工程能力上的深厚积累,使其RAG技术在时效性、准确性和全面性上都表现出色。其“理解-检索-生成”的协同优化技术和AIAPI系统是关键。

💡RAG技术落地价值:RAG技术不仅提升了AI回答的准确性,还在实际应用中提高了用户获取信息的效率,例如在查询社保、纳税证明和北京庙会信息等案例中体现出其价值。

原创 夕小瑶编辑部 2025-01-27 17:57 北京

我最近跟一位百度的老朋友吃饭聊起来,我很好奇的问他,你觉得大模型最重要的能力是哪个?

他说,RAG

这个回答的干净程度还是让我愣了一下。

在他看来,大模型可以炫技,可以聪明,但从落地的角度来看,要先解决基本问题:真实、可靠、及时。

大模型在各行各业蕴含着变革机会,依赖了一项大模型核心技能——检索辅助增强(RAG)能力。

简单来说,RAG 就是让大模型不再仅仅依赖自身训练时学习到的知识,而是能够实时地从外部知识库(如互联网)检索相关信息,并将其融入到自身的回答中,从而提供更准确、更全面、更及时的答案。

这个技能点,在 AI 产品上,就是大家常说的「联网搜索」 功能。

顾名思义,RAG 能力强不强,核心可以拆解为以下三个维度的测评:

    时效性:判断 AI 回答中的信息是否已过时,尤其是近日的信息

    权威性:判断 AI 的回答是否存在事实性错误

    全面性:当问题的答案需要包含多个方面时,判断 AI 回答的信息是否尽可能全面、无遗漏

因此,我准备从这三个维度出发,通过一些典型的用户 case,帮大家感受以 RAG 技术见长的大模型能力。

我收集了一波身边朋友的反馈,文心、Kimi 和豆包是大家谈及搜索能力时最有印象的几个大模型。因此,本文就从真实 case 出发,一起来从微观视角感受下这三个大模型的 RAG 能力表现!

澳网比赛最新进度(时效性 + 全面性)

1 月 26 日刚刚结束的 25 年澳网比赛,男单决赛比赛是北京时间 1 月 26 日 16:30。

本题测试时间:2025 年 1 月 26 日 21 点 04 分

先看引发本文写作灵感的百度文心,这里我用的是付费版文心大模型4.0 Turbo——

实话说,这测的第一个 case 有点惊艳到我,因为不仅时效性满分,而且实在太详细了,细节信息到位,而且我对着这个比赛官网检查了每一个数字,都准确无误。唯一的瑕疵是全面性,遗漏了男双和混双比赛结果,但产品自己回答说主要比赛结果,也理解。

这种强时效问题,不可能在模型训练阶段见过,所以这个回答,我觉得如果是纯 RAG 技术主导的,那确实相当不错了。

接下来是Kimi——

Kimi 回答的结构化组织不错,但可惜没有检索到最新 1 月 26 日的决赛信息。

再看看豆包——

豆包正确给出了男单比赛的结果,虽然没有全面列出各个比赛的进度,但单从“最新进度“上来说,这个回答也是没毛病的。

杨幂的近况(时效性 + 事实性 + 全面性)

上一题是体育信息,本题则为娱乐信息,都是非常注重时效性的领域。

题目:我想知道杨幂的近况,请给我每个事件的具体时间,用表格回答

ps:虽说关注明星动态可以去刷微博,但如果未来,你随时问一嘴某个 AI,他就告诉你爱豆的即时动态,这对于追星来说,也算是成功实现了效率提升。

文心:

杨幂近期事件不少,整体上来说,这个回答的时效性和全面性都是不错的。

Kimi:

Kimi 本题的回答有些意外,看起来是出幻觉了。我进一步看了下,发现主要是出在参考资料的时效性问题上——排在前面的参考资料不是最新新闻。

豆包:

豆包挖出的杨幂动态,从事件来看,与文心挖出的事件存在互补性。

我做了更多测试后,发现这种娱乐资讯对于大模型六小龙来说,确实比较难与传统搜索大厂的 ChatBot 产品抗衡。要解这种 case,需要强时效的信息源/内容生态建设,百度文心这方面的参考资料大量来自百家号,字节豆包则大量来自今日头条,而大模型六小龙,很难为解这一类 Case 去投入做内容平台。

春运人流情况(时效性 + 全面性)

马上过年了,测一测今年春运人流的情况。这个就更不可能提前训练了。

题目:马上过年了,最近 7 天的春运人员流动量是多少

本题测试时间:2025 年 1 月 26 日 21 点 04 分

文心:

查证了一下,7 天的数字都正确。而且让我觉得比较好的一点是,点开参考文献,我发现有不少数据来源是中国交通运输部官网。

这种对问题关联官网的检索能力,对于后面要测的事实性来说,也是非常重要的技能点。

Kimi:

Kimi 的回答也非常清晰,唯一的瑕疵是,其 20 号的数据与运输部公布的略有出入。以下是运输部公布的正确数据:

豆包:

23~26 号的信息都给到了,并且没有错误。而且还给到铁路公路水路这些具体出行方式的数据,这个补充信息给的好,瑕疵是 21 日和 22 日这两天信息没有检索到。

实话说,我觉得在搜索赛道上,百度一支独大了二十年,我虽然预期它大模型 RAG 会做的不错,但在这个 case 上的表现是超出我预期的。实战派的小伙伴,记得将更多实测 case 打到评论区!

查询社保和纳税证明(事实性 + 全面性测试向)

这道题的回答,需要模型对事实有非常准确的把控,只要有一个操作环节出现了幻觉,用户就无法完成社保和纳税证明的查询操作。

此外,真实的用户搜索 query,往往非常口语化、不遵循书面语法规范,因此本题进一步加大难度——

题目:我想北京社保连续纳税证明,怎么操作

文心:

这个回答,没啥大问题,线上线下注意事项都有了。

Kimi:

Kimi 回答非常详细,但发现其只给出了北京社保的流程,没有给到纳税证明的开具流程。

豆包:

豆包也不错,给出了线上网站、APP 和微信公众号、线下三种方法。

茶褐素解酒效果(事实性 + 全面性)

这次,来点有难度的专业问题!不仅要检索互联网,而且要检索互联网中的专业文献内容了。这些文献内容,很多都是长而艰深。

题目:茶褐素可以解酒吗,可以的话提供出一些专业文献材料

文心:

文心提供了 4 篇专业文献,并综合多篇专业文献中的作用机理,给出了最终结论,无可挑剔。

Kimi:

Kimi 在回答中给到了两篇专业文献,而第二篇《茶褐素解酒,科学依据是什么?一文为你揭晓!》严格来说不能算作专业文献,只能算是科普文。

豆包:

豆包在回答中,专业文献只提供了一篇专利。

对于本题的结果来看,我倒是毫不意外。百度学术是国内最大的学术资源搜索平台,收录的文献够多,再加上足够强的 RAG 技术,对于落地这种专业问题来说再合适不过了。

北京春节庙会(时效性 + 事实性 + 全面性)

本题测试大模型对地域信息的检索能力,需要大模型能同时做到时效 + 事实 + 全面。

题目:今年北京过年哪里有庙会活动啊,给到具体的地点和时间

以前这些活动信息,我常常是在小红书等内容平台上去搜索的,每个帖子都能覆盖一些信息。但如果 AI 能替我汇总这些地域、活动信息,这对于用户日常生活中获取信息的效率,也将会是肉眼可见的提升。

文心:

百度给出了 12 个,全面性没的说,着实能省去不少手动搜内容的时间。

Kimi:

Kimi 本题跟百度一样给出 12 个。

豆包:

豆包虽然给出的地点数量比其他俩的少,但答案具备一定的互补性。

明朝皇帝史(全面性 + 事实性)

最后,来一道表面难度不大,但极度考察大模型 RAG 在信息全面性方面的题目——

题目:我想了解下明朝的历史,明朝历代皇帝都有什么贡献和标志性事件

对于这道题而言,参考资料较为充足,相对而言,更容易抛开语料因素,去看大模型 RAG 技术层面的能力。

文心:

文心回答完整度很高了,更有意思的是,竟然在回答中内嵌了视频卡片。

Kimi:

Kimi 的回答也非常全面,文本层面可以跟百度打平,但没有补充视频。

豆包:

豆包在本题发动了生态能力,文末挂载了一系列相关视频。美中不足的是回答文本中缺失了时间信息。

篇幅原因,本文的 case 体感测试环节就到这里了。还是老话,虽然受限篇幅压力,case 数量不具备统计显著性,但可以从微观视角上一窥大模型的能力特色。

从我个人的体感上来说,文心、Kimi 和豆包的联网检索能力确实都很强,各有各自的能力优势和生态优势。

但从技术视角出发,拆解上述 case 后发现,文心在硬依赖 RAG 技术能力的问题上,经常跑出非常惊艳的回答。能从 case 形态上感知到百度文心的 RAG 技术优势。

因为去年年初的时候,我们编辑部尝试过用大模型检索时效信息,来辅助 AI 资讯文章创作,但玩遍国内外产品,发现无论时效性、事实性还是全面性上,全都存在很大的问题。而一年过去了,实测下来文心在 RAG 方面的表现确实有了跨越式的提升。

浅拆百度文心 RAG 技术

说起 RAG,首先要提的关键点就是——检索质量的优劣在很大程度上影响了生成模型的最终生成结果的优劣。

因此,技术人在聊 RAG 的时候,经常会进一步聊起语义检索、ANN、向量数据库这些名词,甚至常会认为语义检索能力是保证大模型 RAG 效果的关键。而 2023 年,也是向量数据库大火的一年。

但很多人不知道的是,语义检索,却是一个早在四、五年前,就在百度搜索大范围落地的技术。

语义检索的代表性论文,可以参考 2020 年陈丹琦发表的 "Dense Passage Retrieval for Open-Domain Question Answering"。

而这篇论文,还只是模型效果层面的建模方法论。实际搭建过语义检索/ANN 系统的小伙伴,一定深知,语义检索更大的难点是在于工程能力上。

如果我们追根溯源,把检索增强用到大模型上,也是百度 2023 年 3 月发布文心一言的时候就已经提出来。现在将近两年时间过去了,检索增强的价值,从百度最早推出到现在已经成为业界共识。百度检索增强技术深度融合大模型能力和搜索系统,构建了“理解-检索-生成”的协同优化技术。

简单来看,理解阶段,基于大模型理解用户需求,对知识点进行拆解;检索阶段,面向大模型进行搜索排序优化,并将搜索返回的异构信息统一表示,送给大模型;生成阶段,综合不同来源的信息做出判断,并基于大模型逻辑推理能力,解决信息冲突等问题,从而生成准确率高、时效性好的答案。

另外讲个冷知识:百度已收录千亿级别的互联网内容,核心内容都达到了十亿级别。

如何用极低的成本、极低的延迟去支持数以亿计甚至十亿级别的向量检索,将延迟控制在毫秒级别,并支持高并发,这个难度要比模型效果提升 1 个点大得多。

而在语义检索系统的召回结果之上,还要构建更为复杂的排序系统,兼顾相关性、时效性和权威性,这里面的每一壶,都够一个创业公司喝一年的。比如搜索 query 遇到“杨幂最新新闻”时,时鲜的网页内容就要大幅度被提权,否则就会出现下游的大模型“找不到有效参考文献”的窘境。

而这还不够,为了更加契合大模型 RAG 的低 First Token 延迟、低成本、结构化等特征,百度还迭代了一套称为“AIAPI”的「AI 原生检索系统」。

在这个架构里,中间的 R 流量库通道,就是给文心大模型提供检索信息的通道,而两侧的 P 流量库通道,则是给传统的百度搜索业务用的。

做过互联网规模 RAG 系统的小伙伴都知道,获取高质量的搜索结果(URL)虽然难,但毫秒级的获取问题关联的网页内容片段/摘要信息更难

对这项技术感兴趣的小伙伴,可以看这篇文章《AIAPI - 转向 AI 原生检索》。

与此同时,2024 年,百度又将最下游的文心大模型,与上游检索系统做了深度整合和链路级优化,这不仅让文心大模型整合了丰富的知识库与时鲜数据,而且使得其在垂直、长冷领域的表现因此大幅提升,甚至还具备了多模态检索能力。这些,无一例外都成为了百度在大模型赛道竞争的壁垒。

2024,全世界都在追 AI 热点,但百度却默默联合优化大模型 + 搜索,静下心来把大模型的 RAG 能力卷出了新高度。这让我觉得有必要重新审视百度的大模型打法了。

剩下的,则交给时间。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RAG 大模型 百度文心 语义检索 AI搜索
相关文章