从百度 iRAG，看 AI 分野

原创金色传说大聪明 2024-11-13 17:27 广东

最好、最新的内容

总在赛博禅心

绘图：82 版西游记里的唐僧，和 87 版红楼梦里的林黛玉，在亭子里，青梅煮酒论英雄，16:9　

这张精准生成的图，来自昨天百度发布的 iRAG：先检索，再生图。　

技术分野

我是各类 AI 的深度用户，Midjourney 年费会员，OpenAI V5 等级调用，单单自己办公，每天就要消耗几百块的 token。　

各类 AI 生图软件都在重度使用，无论 Midjourney、Flux 还是其他，都在打造一个能将文字转化为图像的“端到端”生成系统。它们投入海量算力和数据，进行大规模的图文对训练，就像在培养一个“人工艺术家”：只要数据和算力管够，它就能提笔作画。　

从效果上看，这些方法，时常带来令人惊艳的作品，但也存在明显局限：很多时候，会对事实信息理解出现严重的幻觉，比如我让他给我画一个“日历”，但返回给了我一堆美女图（虽然也挺好...　

相比之下，百度选择的 iRAG 走了另一条路：培养一个“研究型画家”：先对生成目标进行知识图谱分析，获取必要的参考信息，然后才进行创作。这带来一个好处：无论我要画什么，都可以进行精准输出。

比如，我是三国粉，时叹「时来天地皆同力运去英雄不自由」。“先主一统天下，孔明辅政其旁」”的场景，除了在游戏里，或许也只存于 AI：

从技术原理看，iRAG 更像一个「靠得住的人」：干活不靠猜测（依赖经验），而是先理解，再查资料，最后开始干活。通过提升系统复杂度，生成更可靠的内容。　

毕竟，在实际应用中：一个能够稳定输出、行为可控的方案，也许比一个偶有佳作，但不够稳定的方案更有价值。　

历史迭进　

说起来，AI 的这种转向，上演过几轮了。　

70s：专家系统

在半个世纪前，第一批“AI”诞生，当时叫“专家系统”。　

起源来自一个大胆的想法：既然人类专家靠经验和规则来解决问题，那我们就把这些经验和规则都写进电脑里，不就等于复制了一个专家吗？　

具体怎么做呢？比如找来一位资深医生，找他去收集一系列的问题和回答，如　

“看到什么症状会判断是感冒啊？”

“病人发烧超过 38 度，还一直咳嗽，那就得考虑是不是感冒了。”

工程师就把这些经验编成规则：IF（发烧>38 度 AND 持续咳嗽） THEN（检查感冒）。　

基于这种思路，斯坦福在 1970 年代初开发了一套专家系统：MYCIN，用来协助医生寻找传染病治疗方案。在测试过程中，MYCIN 在推荐治疗方案时表现出了与斯坦福感染科专家相当的水平。然而，尽管性能良好，但它最终未能在医院落地：现实世界根本不是靠几条规则就能搞定的：有时候，资深老大夫也说不清自己是怎么诊断的，可能就是直觉。　

“人有多聪明，我就写多少规则”的思路，最终被证明过于简单。　

90s：知识库

在专家系统失败后，人们开始了新的尝试：如果单纯规则行不通，那给 AI 配一个包罗万象的知识库呢？　

美国 Cycorp 公司的 CYC 项目就在尝试解决这个问题。从 1984 年启动，他们雄心勃勃地要把所有”常识”都输入计算机。为此投入了数百名研究员，花了十多年时间，手工录入了超过 100 万条知识。　

但问题是，人类知识远比想象中复杂，比如：　

“苹果是一种水果”—— 乔老爷子：“你说的对”

“即便偶不变，符号看象限”—— 理解这个，需要经历高中教育

在日常交流里，需要“意会”的东西就更多了，比如女朋友说的：　

“随便”（≠随便）

“都可以”（≠都可以）

“马上”（≠马上）

“快好了”（≠快好了）

“没事”（≠没事）

“你开心就好”（≠你开心就好）

“我没生气”（≠我没生气）

于是这个项目折戟了：海量信息的关联性，让 AI 无法依仗于人工整理的资料

2010 之后

2012 年，深度学习横空出世。　

说是“横空出世”，但其核心理念“神经网络”，早在 1943 年就被提出来了：AI 可以像大脑的神经元一样：逐层接受信息，处理结果，然后传递给下一层，最终获得答案。　

这是一个非常性感的想法，但在之后很长时间里，都只存在于想象。　

转机出现在 2012 年，多伦多大学的 AlexNet 用神经网络的方法，在 ImageNet 图像识别竞赛中取得压倒性胜利：错误率降至 15.3%，比第二名（26.2%）足足领先了 11 个百分点。这个突破证明了两点：一是神经网络确实可行，二是只要数据够多，AI 就能自己学习。

图：Embedding Methods for Image Search

从此，难办的事也能用“堆数据”来解决，比如：　

要识别猫，就给它刷几百万张猫的图片

要下围棋，就让它自己对弈几百万盘

要写代码，就让它学习全网的开源项目

这种“大力出奇迹”的方法很快成为了 AI 界的主流。更有意思的是，人们发现了一个规律：只要持续增加模型规模、扩大数据量，AI 的能力就会稳步提升。这个现象被称为“Scaling Laws”（缩放定律）。　

但随之而来的是新的挑战：模型能力惊人，但完全是黑盒，谁也不知道为什么

过去的半个百年，其实还发生了更多的趣事，有机会我再单独讲讲（Flag：挖坑）。也发现，AI 的技术演变，就是在不断试错和平衡中摸索。方法各有优劣，未来的方向或许就是将各方强项优势结合：既有深度学习强大的学习能力，也要有知识支撑带来的可靠性。　

想想看，OpenAI 的 o1，不就是融合了多种东西吗？作为另一种纬度的探索，应该对 iRAG 保持关注。　

回归用户

在梳理 AI 技术演进时，总无法规避其核心问题：AI 产品，总满足不了业务需求　

自 ChatGPT 以来，大多数 AI 产品，都在专注于各种吸引眼球的 fancy 功能：比如画一幅梵高风格的星空、生成一段意识流小说、制作一段奇幻视频。效果确实很好，但也很难用于工作，也无法让用户长期买单。　

相比之下，一些看似平实但真正困扰企业的场景反而被忽视了：　

建筑设计公司每天要出具大量效果图

电商平台需要持续处理海量产品图片

广告公司面临大规模创意素材产出压力

工业设计院要快速输出多套方案可视化

房地产公司需要批量生成样板间效果图

这些需求，有一个共同特点：内容生产必须标准化、规模化，且要确保品质稳定。企业更关注输出的准确性而非创意性，更看重流程的可控性而非自由度。这些都是直接影响业务效率的关键因素。　

从这个角度看，像 iRAG 这样的技术方向切中要害：它不追求最新最炫，而是专注于提供可靠的解决方案。当大多数技术还在探索“能做什么”时，这种思路已经在思考“该做什么”。企业用户真正需要的是：准确性、可控性、稳定性、可解释性。这恰恰是 iRAG 着力解决的方向。　

这或许不是最引人注目的选择，但却可能是最务实的路径。

毕竟，技术的价值，取决于它解决了多少问题。

跳转微信打开

技术分野

历史迭进

70s：专家系统

90s：知识库

2010 之后

回归用户

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签