赛博禅心 2024年11月13日
从百度 iRAG,看 AI 分野
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百度发布了全新的AI绘图工具iRAG,它采用先检索再生成的方式,通过知识图谱分析获取必要信息,从而实现精准的图像生成。与其他AI生图软件不同,iRAG更注重内容的可靠性和可控性,而非单纯追求创意。这种“研究型画家”的思路,在实际应用中更具价值,尤其是在需要稳定输出、行为可控的场景下,例如建筑设计、电商产品图片生成等。回顾AI技术发展历程,从专家系统到知识库再到深度学习,iRAG代表了一种新的探索方向,即结合知识和深度学习,打造更可靠、更可控的AI工具,满足企业用户对内容生产的实际需求。

🤔**iRAG采用“先检索,再生图”的模式:**不同于其他AI生图工具,iRAG并非直接根据文字提示生成图像,而是先通过知识图谱分析获取相关信息,再进行图像创作,从而确保生成结果的准确性和可靠性。

💡**iRAG更注重内容的可靠性和可控性:**在实际应用中,企业用户更关注内容的准确性和稳定性,iRAG能够更好地满足这一需求,例如生成符合特定要求的效果图或产品图片,提高工作效率和内容质量。

💻**iRAG代表了AI技术发展的新方向:**AI技术发展历程中经历了专家系统、知识库和深度学习等阶段,iRAG则将知识图谱与深度学习相结合,为AI提供了新的发展方向,即在保证强大学习能力的同时,提升内容的可靠性和可控性。

🎨**iRAG满足企业用户对内容生产的实际需求:**例如建筑设计、电商、广告等行业,都需要大量标准化、规模化、高质量的图片内容,iRAG能够有效解决这些问题,提高工作效率和生产力。

🚀**iRAG的“研究型画家”思路:**iRAG更像一个“研究型画家”,它会先理解用户的需求,再查阅资料,最后进行创作,这种思路与其他AI生图工具的“人工艺术家”思路有所不同,更符合企业用户对内容生产的实际需求。

原创 金色传说大聪明 2024-11-13 17:27 广东

最好、最新的内容

总在赛博禅心

绘图:82 版西游记里的唐僧,和 87 版红楼梦里的林黛玉,在亭子里,青梅煮酒论英雄,16:9 

 

这张精准生成的图,来自昨天百度发布的 iRAG:先检索,再生图。 

 

技术分野

我是各类 AI 的深度用户,Midjourney 年费会员,OpenAI V5 等级调用,单单自己办公,每天就要消耗几百块的 token。 

 

各类 AI 生图软件都在重度使用,无论 Midjourney、Flux 还是其他,都在打造一个能将文字转化为图像的“端到端”生成系统。它们投入海量算力和数据,进行大规模的图文对训练,就像在培养一个“人工艺术家”:只要数据和算力管够,它就能提笔作画。 


从效果上看,这些方法,时常带来令人惊艳的作品,但也存在明显局限:很多时候,会对事实信息理解出现严重的幻觉,比如我让他给我画一个“日历”,但返回给了我一堆美女图(虽然也挺好... 

 

相比之下,百度选择的 iRAG 走了另一条路:培养一个“研究型画家”:先对生成目标进行知识图谱分析,获取必要的参考信息,然后才进行创作。这带来一个好处:无论我要画什么,都可以进行精准输出


比如,我是三国粉,时叹「时来天地皆同力 运去英雄不自由」。“先主一统天下,孔明辅政其旁」”的场景,除了在游戏里,或许也只存于 AI:


 

从技术原理看,iRAG 更像一个「靠得住的人」:干活不靠猜测(依赖经验),而是先理解,再查资料,最后开始干活。通过提升系统复杂度,生成更可靠的内容。 

毕竟,在实际应用中:一个能够稳定输出、行为可控的方案,也许比一个偶有佳作,但不够稳定的方案更有价值。 

 

 

历史迭进 

说起来,AI 的这种转向,上演过几轮了。 


70s:专家系统

70年代:专家系统基于规则的推理系统 / Rule-Based Expert SystemIF temperature > 38°CIF persistent_cough规则引擎 (Rule Engine)⚙️THEN diagnose_flu()THEN notify_doctor()THEN prescribe_med()简单规则输入规则匹配与推理自动执行相应操作

在半个世纪前,第一批“AI”诞生,当时叫“专家系统”。 

起源来自一个大胆的想法:既然人类专家靠经验和规则来解决问题,那我们就把这些经验和规则都写进电脑里,不就等于复制了一个专家吗? 

 

具体怎么做呢?比如找来一位资深医生,找他去收集一系列的问题和回答,如 

工程师就把这些经验编成规则:IF(发烧>38 度 AND 持续咳嗽) THEN(检查感冒)。 

 

基于这种思路,斯坦福在 1970 年代初开发了一套专家系统:MYCIN,用来协助医生寻找传染病治疗方案。在测试过程中,MYCIN 在推荐治疗方案时表现出了与斯坦福感染科专家相当的水平。然而,尽管性能良好,但它最终未能在医院落地:现实世界根本不是靠几条规则就能搞定的:有时候,资深老大夫也说不清自己是怎么诊断的,可能就是直觉。 


“人有多聪明,我就写多少规则”的思路,最终被证明过于简单。 



90s:知识库

90年代:知识库人工构建的常识知识库 / Manual Knowledge Base?‍?×100s"苹果是一种水果""马上 ≠ 马上""E = mc²"知识库 (Knowledge Base)100万+ 条目100101101101011100110知识关联难以穷尽Context matters人工录入知识结构化存储知识关联复杂

在专家系统失败后,人们开始了新的尝试:如果单纯规则行不通,那给 AI 配一个包罗万象的知识库呢? 

美国 Cycorp 公司的 CYC 项目就在尝试解决这个问题。从 1984 年启动,他们雄心勃勃地要把所有”常识”都输入计算机。为此投入了数百名研究员,花了十多年时间,手工录入了超过 100 万条知识。 

 

但问题是,人类知识远比想象中复杂,比如: 


在日常交流里,需要“意会”的东西就更多了,比如女朋友说的: 

 

于是这个项目折戟了:海量信息的关联性,让 AI 无法依仗于人工整理的资料



2010 之后

2010年后:深度学习数据驱动的神经网络 / Data-Driven Neural Networks海量数据 (Big Data)?{ }数据规模不断扩大神经网络 (Neural Network)模型输出 (Output)Black BoxAccuracy: 84.7%Scaling Laws大规模数据训练多层神经网络黑盒模型

2012 年,深度学习横空出世。 

说是“横空出世”,但其核心理念“神经网络”,早在 1943 年就被提出来了:AI 可以像大脑的神经元一样:逐层接受信息,处理结果,然后传递给下一层,最终获得答案。 

这是一个非常性感的想法,但在之后很长时间里,都只存在于想象。 

 

转机出现在 2012 年,多伦多大学的 AlexNet 用神经网络的方法,在 ImageNet 图像识别竞赛中取得压倒性胜利:错误率降至 15.3%,比第二名(26.2%)足足领先了 11 个百分点。这个突破证明了两点:一是神经网络确实可行,二是只要数据够多,AI 就能自己学习。

图:Embedding Methods for Image Search


从此,难办的事也能用“堆数据”来解决,比如: 

 

这种“大力出奇迹”的方法很快成为了 AI 界的主流。更有意思的是,人们发现了一个规律:只要持续增加模型规模、扩大数据量,AI 的能力就会稳步提升。这个现象被称为“Scaling Laws”(缩放定律)。 

但随之而来的是新的挑战:模型能力惊人,但完全是黑盒,谁也不知道为什么

 

过去的半个百年,其实还发生了更多的趣事,有机会我再单独讲讲(Flag:挖坑)。也发现,AI 的技术演变,就是在不断试错和平衡中摸索。方法各有优劣,未来的方向或许就是将各方强项优势结合:既有深度学习强大的学习能力,也要有知识支撑带来的可靠性。 


想想看,OpenAI 的 o1,不就是融合了多种东西吗?作为另一种纬度的探索,应该对 iRAG 保持关注。 



回归用户

在梳理 AI 技术演进时,总无法规避其核心问题:AI 产品,总满足不了业务需求 

自 ChatGPT 以来,大多数 AI 产品,都在专注于各种吸引眼球的 fancy 功能:比如画一幅梵高风格的星空、生成一段意识流小说、制作一段奇幻视频。效果确实很好,但也很难用于工作,也无法让用户长期买单。 

 

相比之下,一些看似平实但真正困扰企业的场景反而被忽视了: 

 

这些需求,有一个共同特点:内容生产必须标准化、规模化,且要确保品质稳定。企业更关注输出的准确性而非创意性,更看重流程的可控性而非自由度。这些都是直接影响业务效率的关键因素。 

?✍️???⚙️?

从这个角度看,像 iRAG 这样的技术方向切中要害:它不追求最新最炫,而是专注于提供可靠的解决方案。当大多数技术还在探索“能做什么”时,这种思路已经在思考“该做什么”。企业用户真正需要的是:准确性、可控性、稳定性、可解释性。这恰恰是 iRAG 着力解决的方向。 

这或许不是最引人注目的选择,但却可能是最务实的路径。


毕竟,技术的价值,取决于它解决了多少问题。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI绘图 iRAG 知识图谱 百度 AI技术
相关文章