原创 Lian et Zian 2024-12-05 12:13 新加坡
排除噪音,抓住主线
排除噪音,抓住主线
“技术月评”的目的不是全面及时,
而是退一步抓住重点,避免过载。
以及,思考这些技术产生的商业与社会影响。
2024年10-11月AGI主线进展
模型数据通信协议MCP:开启AI的互联网
打工人危了?模型使用电脑:Anthropic先行,OpenAI、Google追赶
“o1家族”模型国产化:Deepseek R1-lite、月之暗面k0 math、千问开源QwQ-32B-Preview
AGI的必要拼图:数学AI
世界模拟机:AI 3D世界 ——World Lab、Google Genie 2;可控视频生成群雄鏖战
多模态理解和生成模型开源:Mistral Pixtral Large, LTX-Video, Genmo Mochi 1,Hunyuan
艺术家反击OpenAI:权力的傲慢与贪婪
Image: World Simulator, by MidJourney
[作者] MK, Lian
正文
<0>
低估的长期:恐惧情绪蔓延,但主线进展坚实
我们对于AGI的“高估的短期”正在退潮:
大众意识到AI并不是“许愿机”,能完整解决的实际问题还有限
Scaling Law甚至都开始动摇 (11月9日 The Information: OpenAI Shifts Strategy as Rate of ‘GPT’ AI Improvements Slows)
身在其中,更感受到国内的融资情绪已经降到了冰点以下(11月28日晚点:中国大模型生存战:巨头围剿,创业难熬)
但,不要被恐惧蒙蔽了双眼:
Scaling Law并没有失效。所有攻击Scaling Law的讨论都是集中在“性价比”上的,而并不是“理论天花板”。而且我们看到,单位训练成本和推理成本一直在稳步下降。以及,Scaling Law其实在除了预训练之外的领域开始了应用:o1增加推理时间(也就是推理算力)的做法,就是Scaling law在推理侧的应用:推理侧暂时边际收益更高,但训练侧仍然一直有进展。
AGI进入深水区。之所以近期比较少“超预期进展”,恰恰是因为1)大众的短期预期过高;2)数学、科研等基础领域的进展很难被大众理解;3)量变的工作正等待质变的契机(AI使用电脑,多模态生成,模型数据通信协议, etc.)
OpenAI自身的问题。Altman从AGI的布道者变成了追逐权力的独裁者,巨大的安全隐患,大量创始团队出走……OpenAI本身的进展遇到瓶颈在预期之内,但行业一直往前在走。连去年吃不到葡萄说葡萄酸的Yann LeCun,在Llama系列追平业界水平之后,话锋一转“AGI在5-10年内就会到达人类智慧水平”
其实,ChatGPT发布只有两周年。
如果对比2007年的iPhone,今年是2009
如果对比1989年的www万维网,今年是1991
如果对比1821年法拉第发明电机,今年是1823
如果对比大约100万年前人类开始用火,今年是公元前100万-2年
以及,12月是年末冲KPI的时间,OpenAI也马上要开发布会了,我们拭目以待。
Image: Brain, from Google DeepMind
<1>
[Anthropic] AI Agent的互联网:
模型数据通信协议Model Context Protocol
本月头条是Anthropic在11月发布的Model Context Protocol (MCP)。它在国内声量很低,甚至都上不了自媒体的第一条信息。但这可能是Q4最重要的进展:它定义了一个开放的function calling/插件标准通信协议,本质上是大模型Agent(作为客户端)和能被调用的工具(作为服务端)之间的通信协议。
类似的发明是www万维网。1989年,Tim Berners-Lee开发了浏览器、HTTP通信协议和HTML语言,诞生了万维网。MCP其实就是把大模型Agent当作AGI时代浏览器,Agent工具当作AGI时代的网页,再加上自然语言,那是否就会衍生出AGI时代的新互联网?
MCP for AI Agents = HTTP for Web pages
当然,构建完整的协同生态还需要长期的努力,但Anthropic迈出了引领行业的坚实一步。加上其在AI可解释性、AI对齐与安全等问题上的不懈投入与开创性工作,Anthropic在模型能力追上OpenAI之后,隐隐正在成为AGI的新领导者。
MCP架构 by Anthropic
Image: Stacks, from Google DeepMind
<2>
打工人危了?模型使用电脑:
Anthropic先行,OpenAI、Google等追赶
随着基座模型的能力慢慢完善,价格越来越卷,模型厂商们也都慢慢向AGI应用做更多探索。如果说现在的主战场在搜索,那下一个,更大的主战场就是通用Agent。想想可以用AI取代80%的打工人,资本家们做梦都在笑。
Anthropic最近发布的实验性功能Computer Use目标是让模型通过读屏和控制光标,可以像人一样使用电脑;不过实际体验下来还是比较半成品的状态。
OpenAI的电脑操控智能体Operator可能在1月发布,但被Anthropic抢先一步。Google也被爆正在进行浏览器操控智能体研究Project Jarvis,可以基于Chrome浏览器,进行跨网页的交互操作。
智谱也发布了AutoGLM和GLM PC等使用手机、电脑的Agent,目前看还是比较接近RPA的效果。
所以打工人暂时还不用担心,AI使用电脑还有不少差距;况且,AI并不会八卦,也不会办公室政治(笑)。
Image: Intensive work (2024), by Yifei Gong with Dall-E
<3>
“o1”家族推理模型国产化:
Deepseek R1-lite、月之暗面k0 math、阿里开源QwQ-32B-Preview
“o1”的出现,开启了一个与“GPT”略有不同的技术道路。
“GPT”本质上是一个问答的形式,一次问答中,给出问题和条件,模型就不断根据上文生成下一个token作为回复。
“o1”模型会进行更多的思考。它可以“打草稿”,在拿到问题后,会考虑不同的策略和思路、进行分析思考、打草稿,过程中还会及时反思和调整思路,最终总结出回答。
两者在预训练阶段大概率没有太大的差别;但在后训练阶段,GPT学习的主要是问答对,而类o1模型针对训练了规划、逻辑推理、反思判断的能力,其中强化学习(Reinforcement Learning, RL)是很关键的一个技术。
国内对o1的追赶很迅速。近一两周三家头部厂商都发了自己的推理模型。但是究竟谁的表现更好,目前还很难评价。以及,新的推理范式其实又对模型评测提出了更高的要求。现在都是用数学和代码题对模型进行考试,以结果为导向,但这还远远不够,只会再落入无意义的刷榜中。
Image: Reflection, by MidJourney
<4>
AGI的必要拼图:数学AI
做数学题是一个好的刷榜工具,但LLM+数学的意义可能不仅如此。
LLM擅长的是“语言”,尤其是“非精确的“、”描述性的”、“想象力的”、“共情的”,它对于逻辑的理解一直是有缺陷的。
除了“语言”之外,多模态模型也开始使用视觉数据。但视觉-观测数据是以“归纳”为核心的“科学”的基础,却无法进入数学的王国。“数学家一直想创造宇宙中不存在的新世界,但物理学家却总能把数学家拉回我们的宇宙”。也就是说,即使我们可以创造一个能理解物理规律的模型,但它的数学仍旧可能很差。
这里做一个大胆的猜想,“语言”可能并不是人类智慧与知识的全部;“逻辑-数学”是语言系统之外的平行系统。一个例子是失语症Aphasia患者可以拥有高级数学能力。
于是,数学-逻辑能力可能是实现AGI的必要拼图。
LLM + Math AI=> AGI
于是,AI公司投入AI+数学应该不只是打榜这么简单。陶哲轩一直在非常积极地把大模型加入到数学研究的过程中,Meta的PatternBoost, Google的AlphaProof,AlphaGeometry 2等等,都是在数学领域做的尝试。而xAI工程师更是开玩笑说Grok 3证明了黎曼猜想……
Anthropic CEO Dario Amodei在文章里提到,5-10年后强人工智能的出现,必要条件之一就是在科研和数学领域达到人类顶尖水平。他预测,强AI支持下的生物学、神经学研究将大幅加速,原本需要 50-100 年的科研进展可能被压缩到 5-10 年内被突破。
数学对于我有点过难了,推荐阅读:
https://darioamodei.com/machines-of-loving-grace
Image: Geometry, by Stable Diffision
<5>
世界模拟机:
AI 3D世界 - World Lab,Google Genie 2
可控视频生成群雄鏖战
李飞飞的World labs发布了空间智能最新的成果,可以用一张图像生成可交互的3D世界,开启了实时自动生成的新篇章。这在游戏、ARVR、教育、艺术等领域都可以有直接应用
World Labs' Demo
谷歌也升级了Genie 2,进入了3D可交互世界生成领域。不仅能操纵视角和移动,还能控制和模拟主角的动作,我们似乎看到了世界模型的影子。Genie2 现在已经可以支持一分钟的探索。
之前图像、视频、3D、游戏内容的创作之间都还是有壁垒的,而随着AI发展,这个边界似乎越来越模糊了。
可控视频生成上,各家更新速度都很快,而且方向明确:可控性。因为只有生成可控了,稳定了,才能商业化。
Runway新出的Frames风格化图像生成,算是卷完技术开始卷审美了,各种风格的质感把控都非常到位;高级相机控制进一步提升了生成视频运镜的自由度;Act One则是让演员可以用手机相机代替动捕,直接将形体、表情等表演转移到CG形象上,连声音的表演也可以做保持。
Runway Frames 生成效果
Runway Act One Demo
LumaLabs则在探索新的AI视频创作体验,融入了LLM的理解能力,和文生图的低成本,让用户在对话中先把灵感和想法转换为图像,再不断修改到满意后,再转换为视频。
可灵和Vidu都更新了主体一致性保持功能,这是可控视频生成中最刚需的功能之一,但实际效果还有很大的提升空间。
Vidu 多主体一致 demo
<6>
多模态理解和视频生成开源:
Mistral Pixtral Large, LTX-Video, Genmo Mochi 1, 腾讯混元视频
多模态理解和视频生成的开源生态也在不断完善,最近开源的几个模型水平都非常在线,效果直逼闭源。
多模态理解可能比多模态生成更重要。在搜索-推荐-广告的领域,多模态理解可以更好理解视频内容,提升产品效果;在机器人领域,只有理解了看到的视觉,才能合理做下一步操作……
如果说生成能力的主战场在艺术与内容创作,那多模态理解能力就是通往智能。对人类而言,知识传递的主要介质是语言,因此把对世界的理解转换为语言能力是更通用的。从另一个方面来说,多模态理解对隐私的侵犯问题可能也为更突出,因此开源、本地部署也是未来很重要的方向。
多模态的意义目前还有很多问号:它究竟仅仅是“模拟世界”?还是说也能从某种程度上“理解世界”?亦或更加激进,其实我们并不需要纠结“理解”,因为“AI的理解”和“人的理解”并不一样,只要能生成就够了。
Image: Understanding, from 利维坦 with MidJourney
<7>
艺术家反击OpenAI:权力的傲慢与贪婪
艺术家们打响了反抗“AI超级垄断”的第一枪。
和OpenAI合作测试Sora的艺术家,把Sora的接口暴露到HuggingFace上,持续3个小时后才被OpenAI关闭。
在这场行动的宣言里,艺术家揭露到:
许多艺术家与OpenAI合作没有报酬
OpenAI要求作品在发布之前必须由他们审核。
在用技术打开新的艺术创作形式的故事为估值镀金的背后,却是出技术掌控者傲慢地凌驾于艺术之上。
技术本身并没有对错,
但技术让人拥有了权力;
垄断性的技术,
就是垄断性的权利;
在权力的影子中徘徊着,
傲慢与贪婪;
于是,在OpenAI的新神AGI面前,
我们都是工具,都是燃料,都是尘埃……
Image: New God(2024), by Lian with Dall-E
前文