普通人的AI自由 2024年12月05日
普通人的AGI技术月评 2024.10-11| 低估的长期,AI的互联网,AI-3D,数学AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了AGI的发展,包括其主线进展、相关技术及应用、存在的问题等。如模型数据通信协议MCP的重要性,AI使用电脑对打工人的影响,o1家族推理模型国产化等,还涉及数学AI、世界模拟机、多模态等方面内容。

Anthropic发布的MCP定义开放通信协议,或衍生新互联网

模型使用电脑,Anthropic先行,OpenAI等追赶但有差距

国内对o1的追赶迅速,新推理范式对模型评测提更高要求

数学AI是AGI必要拼图,相关研究在推进

世界模拟机发展,可控视频生成群雄鏖战

原创 Lian et Zian 2024-12-05 12:13 新加坡

排除噪音,抓住主线

排除噪音,抓住主线

“技术月评”的目的不是全面及时,
而是退一步抓住重点,避免过载。
以及,思考这些技术产生的商业与社会影响。

2024年10-11月AGI主线进展

Image: World Simulator, by MidJourney

[作者] MK, Lian

正文

<0> 

 低估的长期:恐惧情绪蔓延,但主线进展坚实

我们对于AGI的“高估的短期”正在退潮:

但,不要被恐惧蒙蔽了双眼:

其实,ChatGPT发布只有两周年

以及,12月是年末冲KPI的时间,OpenAI也马上要开发布会了,我们拭目以待。

Image: Brain, from Google DeepMind

<1> 

[Anthropic] AI Agent的互联网:

模型数据通信协议Model Context Protocol

本月头条是Anthropic在11月发布的Model Context Protocol (MCP)。它在国内声量很低,甚至都上不了自媒体的第一条信息。但这可能是Q4最重要的进展:它定义了一个开放的function calling/插件标准通信协议,本质上是大模型Agent(作为客户端)和能被调用的工具(作为服务端)之间的通信协议。

类似的发明是www万维网。1989年,Tim Berners-Lee开发了浏览器、HTTP通信协议和HTML语言,诞生了万维网。MCP其实就是把大模型Agent当作AGI时代浏览器,Agent工具当作AGI时代的网页,再加上自然语言,那是否就会衍生出AGI时代的新互联网?

MCP for AI Agents HTTP for Web pages

当然,构建完整的协同生态还需要长期的努力,但Anthropic迈出了引领行业的坚实一步。加上其在AI可解释性、AI对齐与安全等问题上的不懈投入与开创性工作,Anthropic在模型能力追上OpenAI之后,隐隐正在成为AGI的新领导者

MCP架构 by Anthropic

Image: Stacks, from Google DeepMind

<2> 

打工人危了?模型使用电脑:

Anthropic先行,OpenAI、Google等追赶‍‍‍‍‍‍‍

随着基座模型的能力慢慢完善,价格越来越卷,模型厂商们也都慢慢向AGI应用做更多探索。如果说现在的主战场在搜索,那下一个,更大的主战场就是通用Agent。想想可以用AI取代80%的打工人,资本家们做梦都在笑。

Anthropic最近发布的实验性功能Computer Use目标是让模型通过读屏和控制光标,可以像人一样使用电脑;不过实际体验下来还是比较半成品的状态。

OpenAI的电脑操控智能体Operator可能在1月发布,但被Anthropic抢先一步。Google也被爆正在进行浏览器操控智能体研究Project Jarvis,可以基于Chrome浏览器,进行跨网页的交互操作。

智谱也发布了AutoGLM和GLM PC等使用手机、电脑的Agent,目前看还是比较接近RPA的效果。

所以打工人暂时还不用担心,AI使用电脑还有不少差距;况且,AI并不会八卦,也不会办公室政治(笑)。

Image: Intensive work (2024), by Yifei Gong with Dall-E

<3> 

“o1”家族推理模型国产化:‍‍‍‍

Deepseek R1-lite、月之暗面k0 math、阿里开源QwQ-32B-Preview

“o1”的出现,开启了一个与“GPT”略有不同的技术道路。

“GPT”本质上是一个问答的形式,一次问答中,给出问题和条件,模型就不断根据上文生成下一个token作为回复。

“o1”模型会进行更多的思考。它可以“打草稿”,在拿到问题后,会考虑不同的策略和思路、进行分析思考、打草稿,过程中还会及时反思和调整思路,最终总结出回答。

两者在预训练阶段大概率没有太大的差别;但在后训练阶段,GPT学习的主要是问答对,而类o1模型针对训练了规划、逻辑推理、反思判断的能力,其中强化学习(Reinforcement Learning, RL)是很关键的一个技术。

国内对o1的追赶很迅速。近一两周三家头部厂商都发了自己的推理模型。但是究竟谁的表现更好,目前还很难评价。以及,新的推理范式其实又对模型评测提出了更高的要求。现在都是用数学和代码题对模型进行考试,以结果为导向,但这还远远不够,只会再落入无意义的刷榜中。

Image: Reflection, by MidJourney

<4> 

AGI的必要拼图:数学AI

做数学题是一个好的刷榜工具,但LLM+数学的意义可能不仅如此。

LLM擅长的是“语言”,尤其是“非精确的“、”描述性的”、“想象力的”、“共情的”,它对于逻辑的理解一直是有缺陷的。

除了“语言”之外,多模态模型也开始使用视觉数据。但视觉-观测数据是以“归纳”为核心的“科学”的基础,却无法进入数学的王国。“数学家一直想创造宇宙中不存在的新世界,但物理学家却总能把数学家拉回我们的宇宙”。也就是说,即使我们可以创造一个能理解物理规律的模型,但它的数学仍旧可能很差。

这里做一个大胆的猜想,“语言”可能并不是人类智慧与知识的全部;“逻辑-数学”是语言系统之外的平行系统。一个例子是失语症Aphasia患者可以拥有高级数学能力。

于是,数学-逻辑能力可能是实现AGI的必要拼图

LLM + Math AI=> AGI

于是,AI公司投入AI+数学应该不只是打榜这么简单。陶哲轩一直在非常积极地把大模型加入到数学研究的过程中,Meta的PatternBoost, Google的AlphaProof,AlphaGeometry 2等等,都是在数学领域做的尝试。而xAI工程师更是开玩笑说Grok 3证明了黎曼猜想……‍‍‍

Anthropic CEO Dario Amodei在文章里提到,5-10年后强人工智能的出现,必要条件之一就是在科研和数学领域达到人类顶尖水平。他预测,强AI支持下的生物学、神经学研究将大幅加速,原本需要 50-100 年的科研进展可能被压缩到 5-10 年内被突破。

数学对于我有点过难了,推荐阅读:

AGI 的最终挑战(一):AI for Math

https://darioamodei.com/machines-of-loving-grace

Image: Geometry, by Stable Diffision


<5> 

世界模拟机:

AI 3D世界 - World Lab,Google Genie 2

可控视频生成群雄鏖战

李飞飞的World labs发布了空间智能最新的成果,可以用一张图像生成可交互的3D世界,开启了实时自动生成的新篇章。这在游戏、ARVR、教育、艺术等领域都可以有直接应用

World Labs' Demo

谷歌也升级了Genie 2,进入了3D可交互世界生成领域。不仅能操纵视角和移动,还能控制和模拟主角的动作,我们似乎看到了世界模型的影子。Genie2 现在已经可以支持一分钟的探索。

之前图像、视频、3D、游戏内容的创作之间都还是有壁垒的,而随着AI发展,这个边界似乎越来越模糊了。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

可控视频生成上,各家更新速度都很快,而且方向明确:可控性。因为只有生成可控了,稳定了,才能商业化。

Runway新出的Frames风格化图像生成,算是卷完技术开始卷审美了,各种风格的质感把控都非常到位;高级相机控制进一步提升了生成视频运镜的自由度;Act One则是让演员可以用手机相机代替动捕,直接将形体、表情等表演转移到CG形象上,连声音的表演也可以做保持。

Runway Frames 生成效果‍‍‍‍‍‍‍‍‍‍‍‍‍

Runway Act One Demo

LumaLabs则在探索新的AI视频创作体验,融入了LLM的理解能力,和文生图的低成本,让用户在对话中先把灵感和想法转换为图像,再不断修改到满意后,再转换为视频。

可灵Vidu都更新了主体一致性保持功能,这是可控视频生成中最刚需的功能之一,但实际效果还有很大的提升空间。

Vidu 多主体一致 demo‍‍‍

<6> 

多模态理解和视频生成开源: 

Mistral Pixtral Large, LTX-Video, Genmo Mochi 1, 腾讯混元视频

多模态理解和视频生成的开源生态也在不断完善,最近开源的几个模型水平都非常在线,效果直逼闭源。

多模态理解可能比多模态生成更重要。在搜索-推荐-广告的领域,多模态理解可以更好理解视频内容,提升产品效果;在机器人领域,只有理解了看到的视觉,才能合理做下一步操作……

如果说生成能力的主战场在艺术与内容创作,那多模态理解能力就是通往智能。对人类而言,知识传递的主要介质是语言,因此把对世界的理解转换为语言能力是更通用的。从另一个方面来说,多模态理解对隐私的侵犯问题可能也为更突出,因此开源、本地部署也是未来很重要的方向。

多模态的意义目前还有很多问号:它究竟仅仅是“模拟世界”?还是说也能从某种程度上“理解世界”?亦或更加激进,其实我们并不需要纠结“理解”,因为“AI的理解”和“人的理解”并不一样,只要能生成就够了。

Image: Understanding, from 利维坦 with MidJourney

<7> 

艺术家反击OpenAI:权力的傲慢与贪婪‍‍

艺术家们打响了反抗“AI超级垄断”的第一枪。

和OpenAI合作测试Sora的艺术家,把Sora的接口暴露到HuggingFace上,持续3个小时后才被OpenAI关闭。

在这场行动的宣言里,艺术家揭露到:

技术本身并没有对错,

但技术让人拥有了权力;


垄断性的技术,

就是垄断性的权利;


在权力的影子中徘徊着,

傲慢与贪婪;


于是,在OpenAI的新神AGI面前,

我们都是工具,都是燃料,都是尘埃……


Image: New God(2024), by Lian with Dall-E

前文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AGI 模型通信协议 AI使用电脑 数学AI 世界模拟机
相关文章