2025-04-20 11:49 湖北
1. AI的“上半场”回顾
重点:在过去的几十年中,AI的研究主要集中在开发新的训练方法和模型,如深度学习、强化学习(RL)等。这些方法取得了显著的成果,例如DeepBlue、AlphaGo、GPT-4等。
成果:这些模型在各种任务上表现出色,包括棋类游戏、语言模型、数学竞赛等,推动了AI的快速发展。
评价方式:AI的评价主要依赖于基准测试(benchmarks),例如ImageNet、WMT’14等。这些基准测试为模型的性能提供了量化指标,但往往被视为次要角色。
2. 强化学习(RL)的突破
关键转折点:强化学习(RL)在过去一直未能很好地泛化,但最近取得了重大突破。通过语言和推理,RL现在可以解决一系列广泛的任务,如软件工程、创意写作、数学竞赛等。
在强化学习(RL)中,有三个关键组成部分:算法、环境和先验知识
事实证明,强化学习中最重要的部分可能根本不是强化学习算法或环境,而是先验知识,而这些先验知识可以通过与强化学习完全无关的方式获得。
核心要素:这种突破的实现依赖于三个关键要素:
大规模语言预训练:通过预训练模型(如GPT-3)获取通用的常识和语言知识。
规模(数据和计算):大规模的数据和计算能力是实现这种泛化能力的基础。
推理和行动:将推理作为RL环境中的行动,利用语言预训练的先验知识来实现泛化。
3. AI的“下半场”展望:
新的焦点:AI的下半场将从“解决问题”转向“定义问题”。这意味着评价将比训练更重要,研究者需要思考“我们应该训练AI做什么,以及如何衡量真正的进步”。
评价的重要性:过去,AI的研究侧重于开发新的模型和方法,以在基准测试中取得更好的成绩。但在下半场,研究者需要重新思考评价机制,创造新的任务和评价标准,以推动AI在现实世界中的应用。
现实世界的应用:尽管AI在各种基准测试中取得了巨大成功,但这些成功尚未对经济和GDP产生显著影响。这是因为现有的评价机制与现实世界的实际应用存在差异。例如,现实中的任务往往需要与人类互动,而不是完全自动化的。
4. 新的评价机制
互动性:现实世界中的任务往往需要与人类互动,而不是完全自动化的。新的评价机制需要考虑这种互动性,例如通过引入真实的人类用户(如Chatbot Arena)或用户模拟(如tau-bench)。
非独立同分布(non-i.i.d.):现实世界中的任务往往是顺序解决的,而不是独立同分布的。新的评价机制需要考虑这种顺序性,例如通过引入长期记忆方法。
https://ysymyth.github.io/The-Second-Half/
推荐阅读
• 动手设计AI Agents:Coze版(编排、记忆、插件、workflow、协作)
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。