普通人的AGI技术月评 2024.09-10 | 高估的短期，产品形态探索，诺贝尔AI奖

原创 Lian et Zian 2024-10-18 11:41 上海

排除噪音，抓住主线

排除噪音，抓住主线

“技术月评”的目的不是全面及时，而是退一步抓住重点，避免过载。
以及，思考这些技术产生的商业与社会影响。

2024Q3进展有限，AI行业回调与蓄力中

探索LLM新交互形态：Claude Artifacts, ChatGPT Canvas, Google NotebookLM

开源——端侧模型&视觉理解：Llama 3.2, Qwen 2.5, Molmo, Ministral3B/8B

OpenAI新能力差强人意：o1系列、4o语音全面开放、蒸馏工具、人事动荡、融资

多模态继续狂卷：Flux 1.1 [pro]，MiniMax海螺图生视频，快手可灵1.5，Pika 1.5，Vidu主体参照，字节PixelDance & Seaweed，Meta Movie Gen，Adobe Firefly/Premier

2024诺贝尔AI奖：物理学奖、化学奖均授予AI相关工作

前言

十一放假，月评迟到~需要道个歉~

今年7-9月里，AI行业的里程碑式进展是有限的：OpenAI迫于融资压力推出的o1差强人意，模型基础能力演进似乎有些瓶颈，各家在产品上做了尝试但进展有限，行业与商业化落地尚未能大规模展开；只有视频生成是个亮点，但也并没有超过年初Sora的能力。于是，行业里开始有讨论“AI天花板”的声音出现……但这并不意味着AI的进展停滞了，而是像之前说的：人们开始意识到了“高估的短期”。

但“低估的长期”更加重要。AGI和之前技术的巨大区别是迭代速度，以及潜在的“自我迭代能力”。AGI的商业应用和深入生活并不是电力的百年时间，也不是互联网的30年，AI时间只需要3-5年。

正文

<1>

头部厂商探索LLM新交互形态：

Claude Artifacts, ChatGPT Canvas, Google NotebookLM

近期比较突出的进展在产品层而不是模型层。第一梯队的模型厂商们都在22年11月以来由ChatGPT定义的Chatbot产品形态之外，有了更多创新的探索。

Anthropic在今年7月就推出了Claude Artifacts，在对话之外的构建了一个可交互、可运行、可引用的独立窗口，来呈现复杂的内容，比如网页、文档、代码、SVG图像、表格。对话就成了用户作为甲方向模型乙方提需求，模型把按照要求把成果呈现在Artifacts中交付，之后用户可以继续对话来提要求修改。

@李继刚用Claude Artifacts创作的小应用“汉语新解”爆火就是一个例子

OpenAI在ChatGPT中新推出的Canvas也是冲着Artifacts打起了擂台。界面上，Canvas更像Notion文档的形式，用户可以直接上手去修改独立窗口中的内容，也可以选中部分内容追问或者让ChatGPT来修改。不过Canvas相比Artifacts还不能运行代码。

谷歌这次火的NotebookLM，原本只是一个多文档的知识管理工具，9月更新了一个音频总结功能，引发了许多人的关注。因为这次不是之前常见的把文档总结成一段话，再用AI机械地念出来，而是通过一段对话的形式来呈现，用户就像听播客一样了解论文、视频、报告等各种文件载体中的主要的信息。

这些新产品形态的探索，共同点是不再只靠模型的输入输出完成绝大部分的体验，而是来探索新的通用交互方式。也意味着头部模型厂商们都意识到只靠自然语言的交互体验仍然是不够的，模型能力的进一步增强的同时，也需要更新的交互方式来承载。

Image: Midjourney Official selection

<2>

开源-端侧模型&视觉理解：

Llama 3.2 、Qwen 2.5、Molmo、Ministral3B/8B

Meta开源了Llama 3.2，这一波更新不是基础能力的提升，更多是补齐了端侧和视觉理解这两块能力，推出了1B、3B、11B vision和90B vision四个版本的模型。此外，也开源了LLama Stack组件，包括模型微调工具、Agent相关组件等，让开发者可以更方便地基于Llama来构建Agent应用，进一步完善了自己的开源生态。

阿里的开源模型也一直做得很好，这次Qwen 2.5开源了从0.5B到72B 7个不同尺寸的模型，能力也比Qwen 2有进一步提升，据称Qwen 2.5-72B能超越Llama 3.1-405B。

Ai2开源了Molmo视觉理解模型系列，包含一个MoE模型，两个7B模型和一个72B模型，跑分结果也不错。

开源大户Mistral为端侧“开源”了Ministral 3B/8B 新模型，这个大小显然一个为了手机，另一个为了电脑。官方也回顾了去年发布的Mistral 7B，但和当初直接在推特上发模型磁力链接不同，Mistral的“开源”越来越藏着掖着了，这次只提供API，学术研究需要申请才能拿到权重，商用就需要谈lisence了。结合欧盟一直以来的隐私和安全政策，也许瞄准了端侧模型对抗Meta和Google的地利。

不过，目前火热的视频生成类模型依旧没有很好的开源替代方案。

Image: Gap (2024), by Yifei Gong, with Dall-E3

<3>

OpenAI动态：

o1系列、4o语音全量开放、蒸馏工具、人事动荡、融资

铺垫了很久的草莓模型终于发布了。OpenAI把这个系列命名为o1，其中o代表OpenAI，可见对新系列的重视程度。o1的实现方式官方只透露了通过强化学习训练模型进行思维链式的多步推理，最后再给出答案，连具体的推理内容都隐藏了，只在ChatGPT中给用户展示一个经过过滤和总结的摘要。猜测众说纷纭，但不变的还是依赖模型底层的规划、逻辑推理、反思判断、总结的能力，再加上训练模型做多步思考和探索，来找到复杂问题的答案。体验下来o1-preview还比较半成品，有进展，但不算惊艳，希望正式版能有更大的提升，真正体现系统二慢思考的价值。

GPT-4o语音全量开放，包括实时通话API也正式上线，算是给上半年的两个大饼之一有了一个交代，但其实也还没到完全版，视觉的原生输入和输出还不见踪影。至于Sora，又有消息称OpenAI正在进行升级……

OpenAI在开发者日上还发布了蒸馏工具，让开发者可以方便地蒸馏o1等更高级的模型，并对微调后的模型输出结果进行评测。似乎之前“通用能力提升就够了，不需要进行微调雕花”的论调逐渐被遗忘了，毕竟在特定任务上，微调过的小模型够用且便宜。

o1发布之后，CTO Mira Murati 、后训练研究副总裁 Barret Zoph、首席研究官 Bob McGrew、Sora项目负责人之一TimBrooks都宣布离职OpenAI。之后也传出像发布4o时为了赶工狙击google没有好好做安全、正在讨论授予Sam Altman股权、两年内转变为完全盈利实体等消息。新一轮融资也官宣了，融资66亿美元，投后估值1570亿美元，苹果倒是没有参与。

总之，在产品和技术的不断升级的光鲜亮丽背后，OpenAI失去初心已是公认的事实。

Image：Empty Office (2024), by Yifei Gong with Dall-E3

<4>

多模态生成：

Flux 1.1 [pro]、快手可灵1.5、Pika 1.5、MiniMax图生视频、生数Vidu主体参照、字节PixelDance & Seaweed、Meta Movie Gen、 Adobe 视频续写/补全

图像生成方面，Black Forest Labs更新了Flux 1.1 [pro]，速度更快，质量更强。

视频赛道就更卷了：

技术派：

1. 快手可灵1.5进一步提升了画质、美感、指令理解和动作合理性。

2. MiniMax的海螺AI补上了图生视频的能力，模型能力和快手两家并列国内最佳，而且在海外的热度持续走高。
3. Pika 1.5，基础能力有提升，但为了差异化，主打爆款特效模版：对任何物体都可以进行膨胀、揉捏、液压机、爆炸、融化、像蛋糕一样切开。不过Pika开始借助鬼畜做流量，说明商业化不是很顺利。

4. 字节PixelDance & Seaweed，Meta Movie Gen：国内外最头部两个内容大厂都正式下场发布视频模型，但令人意外的是他们连Sora的发布方式都模仿到了：只有精选demo无法实测……连号称坚定走开源路线的Meta也借口安全原因，只甩出一个公告和论文，连体验链接都没有。最简单的猜测是：这些模型并没有比竞争对手领先。

实用派：

5. Vidu推出主体参照：这是非常重要的商业化功能，目的是提升视频的可控性，方便拼接成长视频。但问题是，Vidu的实测效果还很差，目前还处于基本不能用的阶段。

6. 专业选手Adobe Firefly/Premier 推出的功能就实用多了：主体追踪、调色调光、视频续写-补全。这些才是用户愿意付费买单的功能

Adobe demo‍‍‍‍‍‍‍‍‍‍‍

视频模型究竟哪家好？

各家都在疯狂刷榜，视频赛道的各类指数基本没什么参考价值，更直接的效果评测还是要来看视频。腾讯AILab以学术的态度做了一个测评，里面有几百个prompt的实测，这应该是目前最值得参考的。

https://ailab-cvc.github.io/VideoGen-Eval/

436-T2V: The camera remains still, a woman with long black hair lifts a red leather handbag and walks, the background is a busy city street, soft morning sunlight

<5>

2024诺贝尔AI奖：

物理学奖、化学奖均授予AI相关工作

今年连诺贝尔奖都来蹭Ai的热度了。

化学奖授予Google AlphaFold 的主要作者 Hassabis 和Jumper是实至名归，因为AlphaFold的工作确实是革命性地改变了蛋白质和其他分子结构预测的能力。

不过物理学讲授予给AI的工作就让我一个学物理的觉得很费解了，Hinton本人自己都觉得莫名其妙。

学物理的人最讨厌的就是“没法解释”，因为物理学的终极理想就是“理解世界”。这也是为什么说物理学家们都很“讨厌”基于深度神经网络的AI：因为当前的AI是一个无法显性解释的黑箱。AI只能预测，但不能帮助人类理解。

参考前文《 重读霍金 | 有关表象、存在与意识》

不过，从另一个角度来讲，确实近30年在物理、化学等基础学科的进展是很有限的，同学群里都说：“诺贝尔奖都给学物理的指了明路：去做AI。” 以及，如果我们真的可以满足对于世界的“预测”，而不纠结于对于世界的“理解”；或者说，我们可以满足于让AI以新的方式来“理解”，而不纠结于用人脑；那么确实我们是可以重新定义“物理学”的。

或许诺贝尔奖委员会也在暗示“新物理学”的到来。一个不依赖人脑，不需要通过数学、逻辑和语言来做显示描述的物理学？

Image: "The Limits of Reason" (1927) ，Paul Klee