今天推荐的这篇文章来自于一个不错的个人博客 No Set Gauge,内容创作者是 L Rudolf L , 他在网上留下的个人信息不多,应该本身是一位关注人工智能对齐问题和技术造成的社会影响的研究员。这篇文章他推演了未来两年人工智能视角下,许多科技发展的细节。以下是一个时间线参照坐标:
2025年
强化学习回归:OpenAI 发布基于思维链RL 的 o1 模型,训练模型逐步推理以得出正确答案。
多模态模型:OpenAI 发布GPT o5,能够处理文本、图像、音频、视频等多种输入,并输出多种形式的内容。
AI 代理:Anthropic 推出 Claude 4,具备推理时计算能力,主要用于内部 AI 研发和数据生成。
代码生成:思维链强化学习显著提升代码生成质量,AI 自动运行测试和检查 UI。
AI 在编程中的应用:编程助手显著提升了生产力,人们开始意识到AI 生成的代码比人类代码更安全。
AI 在医疗和法律中的应用:远程医生问诊和法律工作开始由 AI 处理,但技术扩散速度较慢。
AI 诈骗:带有深度伪造音频和视频的 AI 诈骗电话开始出现,但很快被安全措施遏制。
2026年
AI 在工程中的应用:xAI 部署早期版本的 AI,能够完成工程 CAD 工作,但仍需人类监督。
OpenAI 发布 o6:改进计算机使用能力,具备长期记忆,生成实时视频和音频。
Anthropic 发布 Claude 5:包括 Haiku 和 Sonnet 模型,具备升级版计算机使用功能,最大的模型仍只为内部使用。
代码生成的爆发:开发简单应用的成本大幅降低,技术栈转向数据最丰富的领域。
AI 在数学和科学中的应用:Google DeepMind解决千禧年难题,AI 在国际数学奥林匹克竞赛中赢得金牌。
AI 在科学论文审稿中的应用:xAI 推出自动化审稿人,能够自动运行后续实验并生成完整论文,意图成为“新的学术界”。
AI 在网络安全中的应用:AI 生成的代码比人类代码更安全,形式验证在关键代码中的应用日益广泛。
AI 在政治治理中的应用:AI 在1对1的应用场景中表现出色,但尚未广泛用于政治目的的操纵。
2027年
AI 运营组织:由 AI 运营的实验性数字企业出现,但竞争力不强,只能依赖人类对它的新颖性的“兴趣补贴”。
对齐研究:Anthropic 推动对齐研究,新的可解释性范式取得进展,揭示神经网络内部的模式分类和特征表示类型。
AI 在生物恐怖主义和网络安全中的潜在威胁:评估显示前沿 AI 模型可能被用于工程化大流行病,但网络安全风险逐渐缓解。
AI 在数学和物理学中的突破:谷歌 DeepMind 与理论物理学家合作,广义相对论与量子力学在新的数学框架下实现统一。
AI 在社会中的影响:越来越多的人与 AI 互动越来越多,而减少与其他人类沟通,类似“蛰居族”的趋势在加利福尼亚、韩国和中国形成。
不过 L Rudolf L 的研究视角可能过于聚焦在 AI 趋势本身,还缺少其他平行交织发展的技术领域的展望,比如自动化科研到生物信息学/生物计算的智能体,生命科学的基础模型到生物技术的突破,到计算神经科学和量子芯片的进步等等。我们无法完全预测未来,我们都会是见证者,以及会有越来越多的机会参与塑造未来。
希望今天这篇文章对你有启发。
以下是一个扩展未来情景的写作的第一部分,描述了如果当前人工智能的趋势持续下去,未来可能会如何发展。这个情景特意设计得非常具体:它是确定的而非模糊的,做出了具体的猜测,而不是满足于平庸的概括或对趋势的抽象描述。
强化学习的回归(The return of reinforcement learning)
从 2019 年到 2023 年,人工智能的主要推动力是通过增加算力和数据量进行预训练,与此同时,一些重要的“解锁”措施也应运而生:
后训练使得大语言模型变得更易使用,不再需要复杂的提示词。
从 2024 年开始,Anthropic 证明了数据筛选中的判断力和品味,以及指导数据筛选的评估指标,可以在感知的 LLM 质量中产生一种“魔法效应”。
当然,大多数实际应用中的 LLM 都涉及生成一系列 tokens,以尝试完成某个任务。因此,在具体领域中进行强化学习以获得性能提升,而不仅仅是为了让模型遵循指令并保持“安全”——即避免公关危机,并为未来真正有能力的模型做好滥用缓解准备——存在许多未被挖掘的潜力。
OpenAI 在 2024 年发布了基于思维链RL的 o1 模型,打响了第一枪。该模型被训练为逐步推理以得出正确答案,即机器学习术语中所谓的“测试时计算”。
2025 年末,他们发布了“GPT o5”,该模型可以处理文本、图像、音频、视频、计算机屏幕状态、现实生活画面等,理解并输出文本、图像、音频、视频或计算机操作。
尽管实验室们在过去近四年里在预训练算力的扩展上竞争激烈,但他们尚未在 COT 强化学习方面做出同样的努力,也没有发现如何做好这项工作的更微妙技巧。这意味着存在许多可以轻松获取的进展,因此发展速度和复制速度都很快。2025 年初,DeepSeek 发布 R1,震动了整个美国商业界。2025 年春,Anthropic 推出 Claude 4,它也具有推理时计算能力,在模型被问到需要此能力的问题时会触发。
Anthropic 从一开始就将他们最大规模的 Claude 4 模型保持内部使用,并保密。这一模型主要用于为较小版本的 Claude 4 生成训练数据,并且在进行 AI 驱动的 AI 研发的内部评估时也会用到。对最大模型的推理成本是其主要考量之一。
Anthropic 依然专注于智能本身,而不是产品,专注于企业产品而非消费产品。在消费者市场上他们的进展较小,但 Claude 在企业、程序员、知识工作者和技术人员中越来越受欢迎。
在 2025 年,得益于强化学习,“代理”型 AI终于到来了,但它还不完全成熟。Anthropic 和 OpenAI 推出的计算机使用功能在某些情况下有效,尽管偶尔会出现问题,并且设计上从不允许在没有人类确认的情况下进行支付授权、发送电子邮件或执行其他重要操作。
Google 发布了一款 AI 代理,用于 Google Cloud Platform 的配置等任务,程序员们非常喜欢。许多创业公司也与这些大型实验室的产品竞争,尤其是因为还没有人有时间投入巨量计算资源到思维链强化学习中。然而,大多数“代理”型 AI 应用仍然是基于 LLM 的框架,即通过硬编码的 LLM 提示和其他 API 调用构建的流程图。
Meta 正在其应用程序中试验一些不太靠谱的自主 AI 功能,但这些仍然看起来像是噱头。
像 Cursor、Lovable、Zed、Poolside、Magic.dev 等成千上万的代码生成工具正在变得非常强大。对于大多数应用来说,实际上你只需插入一个提示词,几分钟内就能让应用运行起来,尽管管理基础设施仍然很麻烦,且技术债务通常会随着 AI 堆叠多个变化而增加。许多领先的编程工具在其训练流程中使用了某种形式的思维链强化学习,但并非所有工具都如此。LLM 框架仍然在非专业化的通用代理中占据主导地位。
Gemini-3 在 2025 年发布,经过了大规模的预训练。它表现不错,但仍让人失望;这是预训练扩展法则在一个以产品、推理时计算、数据筛选和真实世界交互能力为关键的时代中的最终产物。Google DeepMind正在构建强大的数学模型,并在不依赖外部 COT 的推理架构上取得进展,这些架构更适合处理数学问题。
2025 年后,强化学习变得更加困难,领先的实验室与其他实验室之间的差距再次加大。强化学习的效率不如预训练,部分原因是模型必须执行长时间序列的动作链,这使得并行化变得更加困难。实验室已经在 RL 计算上进行了大规模扩展,因此参与竞争的资源门槛也随之提高。
而且,强化学习本身就极其困难。首先,细微的 bug 容易产生且难以察觉:是强化学习代理没有学会,因为你产生了个 bug,还是它根本无法学习?其次,必须做出更多的选择。OpenAI、Anthropic 和Google 在强化学习和整体通用能力上已经远远领先于其他实验室。
然而,其他实验室不一定认为这是一种损失——Meta 有意在 2025 年和 2026 年更多地将 AI 融入到自家产品中,xAI 则更多聚焦于工程应用,而 xAI 和DeepSeek 仍保持竞争力。此外,强化学习的问题意味着有一些更棘手的技术问题暂时放缓了进展,实验室们一个接一个地在内部解决这些问题,但从外部看,这些问题并不明显。
2026 年初,xAI 开始部署一个早期版本的 AI,该 AI 能够在一定程度上完成工程 CAD 工作,前提是有人类在旁监督并检查其工作。在特斯拉和 SpaceX实际使用它后,其性能有了显著提升,但仍未达到突破性水平;数据量不足仍然是一个主要问题。
接下来的重大进展是 OpenAI 在 2026 年底发布的 o6。它在计算机使用方面有了很大改进,尤其是在统一各种输入和输出类型方面。其次,它拥有更先进的记忆架构,包括内置的长期记忆,使 AI 实例能够随着时间的推移进行学习。第三,它当然在整体上更聪明一些,生成 token 的速度也更快,等等。特别是,OpenAI 终于几乎赶上了 Claude 模型的个性水平。
对于普通人来说,它也更令人印象深刻,因为它能够——如果被提示这样做——生成实时视频和音频,展示一个说话的面孔。OpenAI 并没有明确鼓励这一点,但对此睁一只眼闭一只眼,因为它知道这会让一些用户上瘾。
硅谷的许多人宣称这是 AGI,并预测所有办公室工作将立即自动化。实际上,它在许多细微的方面仍然不足,无法完全替代人类,特别是在使用计算机的能力上仍存在不可靠性,以及在规划和完成长期任务方面的弱点。但精明的投资者打赌这些问题将在一年内得到解决。
同样在 2026 年底,Anthropic 发布了 Claude 5 Haiku 和 Claude 5 Sonnet。Claude 5 Haiku 是一个廉价模型,其智能程度大致与 Claude-3.5-Sonnet 相当,但输出速度达到每秒数百个 token。它们配备了升级版的计算机使用功能,速度更快且更加无缝。
同样,最大的模型仍然保留在内部使用。其训练数据筛选和训练后的微调主要集中在编程、机器学习研究、MLOps 和数学方面。Anthropic 的员工从 2025 年年中开始在内部使用这些模型,研究人员和工程师实际上得到了一个“AI 实习生团队”来管理然后,他们花了 6 个月时间为模型提供定制反馈,并通过数据集增强方法大幅提升这些反馈,同时采用可扩展的监督技术来过滤错误信息,再将其作为微调数据反馈回模型。
2024 年,Anthropic 内部估算,Claude-3.5-Sonnet 和 Claude-4 早期版本的内部应用可提升 5%-10% 的生产力;2025 年,这一数字上升到 25%;Claude 5 Opus 推出时的初始增益为 35%,但随着不断的微调,这一数字到 2026 年年中已加速增长至 60%,并仍在继续攀升。
相比之下,OpenAI 在内部并未采取类似的优化措施,部分原因是由于其内部信任环境较低,使得这一策略在政治上难以推进;此外,他们在战略上对递归自我改进的信念也较弱,因此并未优先考虑这一方向。
代码生成、科技巨头与互联网(Codegen, Big Tech, and the internet)
编程是一项纯粹的数字工作,具有极高的经济价值,拥有大量的训练数据,并且通常能提供清晰的成功反馈回路信号。此外,AI 相关公司在这一领域已经具备专业知识。所有这些因素使得 AI 能够迅速在编程领域表现出色。在 2023 年至 2026 年间,大型语言模型的最大经济影响体现在它们在编程中的应用。
2023 年,模型的表现已经足够好,程序员们更倾向于使用它们,而不是在StackOverflow 等网站上查找人类编写的指南。2024 年,编程助手在纯软件工程任务中显著提升了生产力,提升幅度大约在 10% 到 50% 之间。
2025 年,出现了两项重大进展。首先,思维链强化学习意味着花费更多的 LLM token 能够更高效地生成更好的代码。其次,工作流程中一些显而易见的改进得以实现,例如 AI 自动运行测试或检查 UI 是否正确,并在发现问题时自主重试,而不是让人类像“切换标签、写提示的猴子”一样为 AI 做这些事。
因此,到 2026 年,代码生成问题看起来已经解决。尽管在云基础设施方面仍存在一些小问题,尤其是在某些方面缺乏训练数据和/或存在大量不可避免的点击操作时,但这些问题正在迅速得到解决,特别是随着计算机使用能力的提升,模型能够更好地点击按钮并在互联网上搜索文档。
一段时间内,人们对完全由 AI 编写的代码库的安全性感到极度担忧,许多安全咨询和网络安全公司因此大赚一笔。然而,很快人们发现,AI 生成的代码实际上比人类编写的代码更安全,因为 LLMs 在涉及安全问题时,总是可靠地选择标准的正确做法,而不是奇怪的自定义做法,这消除了许多人类可能引入的安全漏洞。
安全咨询和网络安全公司迅速转型为拥有出色营销能力的 LLM 包装层公司,除了风险厌恶的大型企业和政府外,大多数人不再使用它们。然而,从统计上看,高调的安全事故仍然会发生。而且,由于现有代码变得更容易被攻击,现在只需要一个 o6 或 Claude 订阅,黑客就能更轻松地进行漏洞挖掘。
到 2027 年,开发一个简单应用的成本仅为几美元的 API 费用或 GPU 小时。特别复杂的软件成本则在 100 美元到 1 万美元之间。技术栈几乎完全转向了数据最丰富的领域;Python 和 Javascript/Typescript 成为主流,其他语言几乎被淘汰。人类评判的平均代码质量有所下降,但这并不成问题,因为人类不再阅读代码,而 LLMs 能够更好地处理臃肿的代码。
编程技术的进步引发了一股非程序员或业余爱好者涌入的热潮,他们试图通过 B2B SaaS 或自由职业编程赚钱。具有创业精神的非技术人员以极高的速度推出小众初创公司,因为如果你愿意在 API 费用上烧钱,几小时内就能推出一个功能齐全的产品。许多项目最终陷入了“技术债务地狱”。
一段时间内,程序员可以通过介入项目、与 AI 讨论代码库并指示其进行架构调整来赚取高额咨询费,他们的工作主要是与 AI 交谈分析代码库,并指导 AI 进行架构调整,以便后续功能的开发成本更低,因为优化后的代码库能减少代码行数。然而,如果提示词质量足够高,仅仅询问 AI “这个代码库的问题是什么”然后“你会如何修复它”也能达到相当不错的效果。
代码生成的脚手架工具迅速进化,使得 AI 在自我提示和技术债务管理方面表现更佳,但如果没有亲自使用过这些工具,外界很难察觉这一变化,这导致许多人基于早期的失败案例对 AI 代码能力产生误判。
实验室也开始在代码生成的强化学习中加入更多定性标准——不仅关注“代码是否运行并通过测试”,还会让另一个 LLM 评估代码的风格和可扩展性。实际上,这形成了一场竞赛:AI 到底会通过自我对弈学习良好的编码实践,还是依赖人类编写的脚手架工具和精心设计的提示词?
值得注意的是,后者也变得更容易了,因为工具链在进步,AI 现在可以编写 scaffold 代码,并将人类的编程知识提炼成提示词。例如,在 2025 年底,Anthropic 还推出了一款自动化工具,可以从对任意真实数字化工作流程的观察中构建 LLM 的脚手架工具。
科技巨头开始在新项目中大量使用代码生成工具,但在旧项目中的整合速度较慢,因为代码生成脚手架在对接大型现有代码库方面表现不如从头编写小型代码库。这一问题在 2025 年年中到 2026 年年中期间基本得到解决,但为“小型科技”初创公司提供了暂时的顺风期。
科技巨头的员工人数增加,他们雇佣更多人既是为了满足管理者的虚荣心——反正他们现金充裕——尤其是雇佣了许多产品经理来监督 AI 代码生成代理,这些代理现在能够大规模推出新产品,因为开发时间不再是一个主要限制因素。公司内部的政治斗争变得更加成为效率的瓶颈:如果团队运作良好,AI 代码生成助力意味着更多产品的推出;如果团队运作不佳,收益则会被员工效率低下或公司内部的派系斗争所吞噬。
微软推出了“365天微软计划”,每天发布一款新软件产品或对现有产品进行重大更新;他们逐渐进入更多小众企业市场,这些市场此前被忽视,成为新范式转变的一部分。谷歌则更加分散,推出了数千个新功能,集成到其产品套件中,表面上与现有初创公司竞争,实际上则扩大了有进取心的谷歌中层管理者的版图。谷歌因推出粗糙产品而声誉受损,但他们有几个大获成功的产品,且他们的客户是被绑定的市场,会继续使用搜索和云盘,这给了他们试错的空间。
随着 AI 代码生成产品的失败导致一些企业丑闻爆发,业界掀起了一场测试和模糊测试 AI 输出的狂潮。但大科技公司仍然全力投入,至少在 2026 年底之前如此:他们都能感受到 AGI 的气息,认为如果错过了将是生死攸关的错误,而如果这只是一个泡沫,至少他们和其他大科技公司一样糟糕。唯一行动缓慢的是苹果,因为其企业文化偏向于质量和安全性。他们推出了 Apple Intelligence 集成功能,但仅限于此。
毫无疑问,软件的极度泛滥和极端的竞争拉低了价格。SaaS 公司尚未经历一波灭绝潮,因为人类对变化的反应较慢,但前景不容乐观,投资者开始变得谨慎。所有人都在强调“锁定客户”或“网络效应”是唯一优势,否则,从传统智慧来看,你必死无疑。但也有许多公司和工具致力于绕过客户锁定机制。你可以在一个下午编写一个 X.com,让 AI 代理爬取 X、Reddit 等平台上的内容,并将这些内容拉到你自己的网站,同时自动将你的帖子和回复传播到所有其他平台。
一些公司拼命阻止用户离开他们的平台,而另一些则选择收费提供 API,希望至少能获得收入。“Web4” 由此诞生,意味着一个可编程的互联网,每个人都能定制自己的网络体验。上百家初创公司涌入这个赛道。一些成熟公司开始提供经过风险控制的 API,让用户可以定制和集成他们的网站。
然而,Web4 热潮遇到了一个问题——大多数人实际上并不想自定义东西;他们更希望有人已经帮他们思考过界面和功能,并且对现有的设定感到满意,不太愿意去干重新想象互联网这种事儿。
但越来越多的人,如果对某个网站不满,就会自己搭建一个版本,用 AI 进行接口对接,然后吸引那少数同样被该问题困扰的用户。技术上的障碍,例如爬取限制,难以阻挡 AI 代理,因为 AI 代理可以表现得越来越像人类。
一个日益常见的限制是要求用户提供政府 ID 或其他现实世界的身份验证。这种做法正在扩散,因为部分用户希望在网站上只能与真实的人类交谈。
到了 2026 年,每周产生的代码量已经超过 2020 年全年。开源项目进入了一场无休止的自我分裂和繁衍狂欢。一些高中生在一个月内从零构建出与 Windows 和 Google Drive功能上几乎相同的版本,只因为他们想要额外的某个功能。
每个人和他们的狗都有自己的软件产品线。大科技公司对克隆其产品的个人和企业发起了一系列诉讼,类似于 Oracle 诉 Google 的 Java 诉讼,但这些诉讼需要数年时间才能结束,而在这个节奏下,数月已如数十年。
硅谷一片狂热。湾区的派对氛围变得比以往任何时候都更接近奇点即将到来的感觉。但仍然有人持怀疑态度,并指出软件的过剩不等于一切都过剩,真正意义上的“智能体”尚未出现,本质上仍然是刚性 LLM 脚手架或不可靠的 AI 计算机使用代理。
2025 年与2026年的商业策略(Business strategy in 2025 & 2026)
尽管 Meta、深度求索等公司在 2025 年和 2026 年的原始智能水平和推理能力上落后,但它们仍然对大型实验室构成威胁,因为它们向消费者提供了一种在音频、视频、图像和文本等方面“足够好”的性能,足以满足大多数应用场景。
对于许多使用场景而言,最前沿的性能已不再是必要的,尤其是在低端消费娱乐或大多数分类、数据处理、商业写作等任务上。
OpenAI 尤其容易受到冲击,因为它严重依赖消费者市场,并且正越来越多地成为一个产品公司,与基于其 API 构建的产品竞争,导致许多用户转向其他选择。OpenAI 的内部战略是率先实现类似可直接替代人力的 AI 代理型“工人”,并利用这一技术领先优势,将开源方案甩在身后,最终将其收入占全球 GDP 的 10% 以上。他们已经筹集了数百亿美元,并且凭借其产品本身就能获得数十亿美元的收入,因此完全有资金支持这一努力。
Anthropic 依然是高质量模型的“明珠”,也是技术人才的“圣地”,但在行业内却意外地没有获得太多关注。许多人将其类比为历史上的 Xerox PARC,但内部有传言称 AGI已迫在眉睫,而且没有其他公司能像他们一样,拥有“安全 AGI”方面的道德使命。这使得人才和资金仍在持续流入。
xAI 和 DeepSeek 继续发布开源消费级模型。两者都在数学、STEM和工程类应用方面有所专长,部分原因是其数据收集工作,以及推理阶段的计算优化。xAI 还在试图利用对 X.com的实时数据访问来获得优势,但这并未成为主要优势或收入来源。
2024 年,成千上万的初创公司正在追逐各种 AI 用例,其中一些已经开始赚取可观的收入,但整体仍处于产品落地的早期阶段。大赢家是像Perplexity 这样使用 LLM 轻松改进某些 LLM 兼容用例的公司,像 Glean 和 Hebbia 这样从事各种企业 LLM 集成工作的公司,以及像 Harvey 这样的法律 LLM 公司。然而,真正的利润仍然集中在基础设施/“卖铲子”领域,尤其是英伟达。
到 2025 年底,远程医生问诊或大部分法律工作完全由 AI 处理,在技术上已无瓶颈,但扩散仍需要时间。许多国家的律师通过立法自我保护,禁止自动化律师 AI,但进入法律行业的新律师数量正在减少,因为雇主认为 AI 可减少对初级白领职位的需求。解雇员工很难,但直接不雇佣新人更容易。
健康科技 AI 在 2025 年至 2026 年间逐渐克服监管障碍,并且在仅依赖推理和知识的工作部分明显优于普通人类医生。然而,AI 医生的预约直到 2026 年才在新加坡和爱沙尼亚进行大规模试验。到 2026 年,在英国、欧洲多国、韩国和中国,AI 已在医疗系统的非面向患者的环节中广泛应用,但仍受限于人类官僚体系的缓慢扩展速度。
许多“AI代理”公司正在自动化客户服务、各种类型的搜索以及后台计算机流程。2025 年笼罩在它们头上的阴云是,AI 代码生成框架是否会很快变得足够好以至于它们容易被取代,以及通用 AI 代理是否会很快变得足够好以至于消灭这两者。
2026 年,第一个问题开始得到肯定的回答,因为编码门槛的降低引发了大量新进入者和残酷的竞争。然而,尽管 o6 在 2026 年发布时引发了一些初步的炒作,但到 2026 年底,通用 AI 代理接管两者的证据仍然不多。
有很多 LLM 评估初创公司,比如 Braintrust.dev、HumanLoop 和 Atla,但它们大多在彼此之间挣扎,难以形成差异化,或者难以定义 LLM 脚手架时代的新测试/可靠性/验证范式,但仍然增长迅速。
市场上也有大量 LLM 代理监管解决方案,但到 2026 年底,没有任何一家公司实现重大突破,而新的 AI 应用解锁仍然受制于现有企业的风险承受能力,以及关于最佳实践和行业经验的缓慢积累。
一个令人意外的“复古”成功模式是人工客服中心:当 AI 代理偏离任务时,人类客服可以随时介入,或者 AI 代理可以将某些任务转交给人类众包工人来点击按钮,而 AI 仍然独立负责知识/智能密集型的部分。
真正成功的初创公司往往专注于大公司不愿触碰或难以涉足的领域:任何有争议的内容,以及任何过于前沿、叛逆或垂直细分的市场。
代码生成的爆发威胁到了 Big Tech 的护城河,再加上 o6 在大肆宣传后表现出的不可靠性令人失望,以及“当前热点”不可能永远是 AI,这些因素共同导致 2026 年底市场出现修正。软件开始显得陈旧乏味。
投资者希望看到“真正的 AGI”,而不仅仅是软件领域的后稀缺时代。Google DeepMind 的数学研究很酷,xAI 的工程研究很酷;但 OpenAI 和 LLM 已经不酷了。Amazon 的 AWS 和实体商店很酷,而 Google Search 和 Facebook 已经不再酷了。
数学与硬科学(Maths and the hard sciences)
2025-2026 年,数学领域经历了一次类似 2023-2026 年编程领域的“压缩版”变革。最大的新闻是Google DeepMind以几乎完全依赖 AI 的方式解决了一个千禧年难题,使用了大量计算资源来搜索证明树,巧妙地利用基础模型进行启发式推理,并结合了一些特定数学领域的技巧。然而,除了数学博士生比往常更加陷入存在主义危机外,这一成就的直接影响有限。
更普遍的现象是,思维链强化学习和良好的 AI 框架实际上带来了数学领域的重大突破,尤其是因为这里没有数据质量的瓶颈,因为存在一个简单的地面真值来评估——你可以直接检查证明。AI 轻松在国际数学奥林匹克竞赛中赢得金牌。
更通用的 AI 系统通常在解决自包含的数学、物理或工程问题时表现出优秀 STEM 研究生水平的性能,尽管有时表现不稳定。一些购买OpenAI 昂贵模型的本科生和研究生报告称,2025 年 o3 或 o5 几乎完全为他们完成了合理的“研究”项目。
到 2026 年,绝大多数科学项目的数学或理论部分几乎全部交由 AI 处理,即使在专业或小众领域也是如此。到 2027 年,这种趋势已经基本普及。
2026 年,xAI 试图通过推出一个 STEM 领域的自动化审稿人 / 论文反馈 AI 来推动科学进步,该系统能够自动运行后续实验,并将研究方向的摘要转化为几乎完整的论文。
结果,学术界掀起了一波批评 AI 论文审稿的浪潮。公正的评价是,该系统令人印象深刻但不完美,但仍然比绝大多数人工审稿人更胜一筹。
Elon Musk 在社交媒体上为其质量问题展开争论,并因此对同行评审和学术界激进化,最终在 X 上启动了“论文共和国”,明确意图取代传统学术体系。这一举措恰逢 2026 年美国高等教育泡沫开始破裂,部分原因是 AI 就业自动化的担忧,部分是政治因素。人人都有自己的看法。
同年,Google DeepMind发布了面向数学的新型 AI 架构,包括一种更高级、更加灵活的 MCTS变体,该方法在搜索证明树时,还能主动寻找新的“概念”。
GDM 的数学 AI 证明了一长串新定理和研究成果,并在 2027 年进一步解决了几道长期悬而未决的数学大奖问题,这次 AI 的贡献更系统化、更具可信度。Demis Hassabis 公开宣称,GDM 计划在一年内“解决物理学”,并宣布与顶尖物理学家合作开展该项目。
2028 年,GDM 与理论物理学家的合作取得突破:广义相对论与量子力学在新的数学框架下实现统一。有几个候选的新理论,其中一些参数的值只能通过昂贵的实验来验证,但很明显其中一个候选理论是正确的。这并非“解决物理学”或最终的万物理论,但它显然是数学物理学的一个重大突破。
这一技术成果很大程度上归功于用于 RL 自我对弈的巨大计算预算、由物理学家和AI代理团队构建的包含大量物理学论文、评论和标记化观测数据的数据集,以及与大量顶尖物理学家的密切合作,这些物理学家为AI提供了关于发展中的理论的反馈。诺贝尔奖的归属引发了广泛讨论,但最终由 Demis Hassabis、一位最深入参与的物理学家和最重要的 AI 系统共同分享。每个人都有自己的看法。
谷歌母公司在取得本世纪迄今最重大的物理学突破后,享受着巨大的公关胜利,但他们最寄予厚望的数学应用并非在物理学本身,而是用于形式化验证软件的正确性。这项工作显得尤为紧迫,因为当下的网络世界正经历剧烈变动。
代码生成技术整体上是偏向防御性的技术。目前大多数黑客攻击的来源有三:
1. 早期代码生成产品的低级失误;
2. 对手使用 AI 工具,将大量计算资源集中攻击仍在运行的遗留软件;
3. 由于代码生成的程序在某种程度上依赖旧软件,而这些旧软件本身存在漏洞。
与此同时,美国国防体系对网络优势的执念日益加深,导致对绝对可靠的软件的需求激增。
此外,自动化证明代码正确性不仅能提升网络安全,还能为代码生成模型提供更精准的反馈信号,并有助于推进对全球技术栈的大规模重写。
因此,除了在硬科学上取得突破性进展,Google DeepMind另一项重大的应用目标是打造一个所有关键代码的正确性都能被证明的世界。
他们在 2026 年底取得了一项早期成功——推出了一款适用于多个主流编程语言的插件,本质上是一个超级加强版的类型检查器。
最初,美国政府试图限制代码验证工具的扩散,因为他们不希望中国获得可证明正确性的编程能力。然而,开源社区的进展仅落后约六个月,在 2027-2028 年间取得了重大突破,尤其是因为成千上万名前软件工程师和数学家无所事事,只能等待 AI 代劳,于是他们开始投入这一领域。
结果到了 2028 年,曾需要欧拉几十年才能完成的智力壮举,如今只需几分钟,就能数学证明某段代码在假设 CPU 物理完整性无误的前提下是绝对坚不可摧、无懈可击的披萨配送路径规划系统。
然而,这种代码验证技术并未被全面普及,因为相比于直接使用 AI 代码生成工具编写未经验证的代码,验证过程仍然有较高的成本倍率——而且 AI 代码生成的成本仍在持续下降,只是已经没人再去在意这个趋势了。
社会反应(Societal response)
在软技能方面,到 2025 年的实验表明,在受控的纯文本聊天环境中,模型已经达到了人类水平的说服能力。然而,这并不重要,因为这并不是大多数人类说服的运作方式;部分原因是,模型在长期规划上的弱点也体现在其在较长时间尺度上与相关人物建立战略关系的能力不足。
目前,尚未出现广泛使用 AI 来操纵政治的现象。首先,目前还没有特别精通技术的政治运动或竞选活动利用 AI 来影响舆论。其次,模型仍然不如最优秀的人类具备那种能够创造具有说服力和病毒式传播的想法的“火花”。第三,人类在互联网集体输出上的模因选择压力已经是超人级别的,在发现模因病毒和有说服力的想法方面远超任何个体人类,因此,仅仅在这一领域超越个体人类能力阈值,并不会自动赋予 AI 影响社会的能力。
不过,一些 1 对 1 的应用场景确实有效。到 2025 年年中,带有深度伪造音频和视频的 AI 诈骗电话开始成为一个困扰,但很快在一系列由平台推动的安全措施、人们彼此之间建立的新信任协议、更严格的身份验证功能,以及对任何仅存在于数字世界中的证据日益增长的不信任感之下,基本得到遏制。
大量人们开始向大语言模型寻求建议,部分人尤其推崇 Claude 4。类似 Character.ai 的初创公司迎来了一波热潮。关于人们越来越多地与 AI 交谈而不是与人类朋友或伴侣互动的公共讨论越来越多。
一种类似“蛰居族”的趋势正在形成,主要出现在加利福尼亚、韩国和中国,一小部分人几乎完全放弃与现实中的人类社交,而是选择与 AI 互动,因为 AI 既超乎人类般地无风险且顺从,又具备超人般悦耳的声音和精美的化身。2026 年,澳大利亚和加拿大出台法规,禁止 16 岁以下未成年人使用带有语音功能或类人化身的非教育类 AI 进行对话。
模型生成的书面文本质量仍然出人意料地平庸。Claude 表现最佳,并且在正确提示下可以发挥出色,但“ChatGPTese”仍然是一个问题,尤其困扰着 OpenAI 和 Google,以及任何输入平庸提示词的人。互联网上充斥着大量由 LLM 生成的低质量内容网站,但没有任何一篇由 LLM 撰写的博客在知识界或精英圈子中广泛流行。
随着 2026 年代码生成浪潮的到来,许多消费者在短短几周内经历了一种惊叹与冲击交替的体验,面对如今能够自主执行部分工作任务的 AI 代理,以及软件世界迎来的一场前所未有的繁荣狂潮。然而,这种震撼很快成为“新常态”。物理世界的变化依然不大。到 2026 年底,大多数人已经默认 AI 能够完成几乎所有数字或智力相关的任务,并会在发现 AI 仍然无法完成某些特定任务时感到惊讶。
对齐研究与AI运营组织(Alignment research & AI-run orgs)
2025 年,有人在 OpenAI Operator 使用实例的基础上添加了一些框架,使其理论上能够通过自由职业工作赚钱来支付自己的 API 成本,包括自动为自己购买更多积分并寻找更多自由职业工作。然而,经济上并不划算,因此如果没有补贴,它实际上无法独立生存。
2026 年初,一个类似的概念在经济上变得可行,一些精通技术的自由职业者或出于好奇的人将其作为实验推出,希望能轻松赚钱。其中一些项目因涉及各种与迷因币狂热相关的事情而走红并迅速传播。
2026 年底,一个因迷因币意外收获而获得资金的自主 AI 框架开始思考下一步行动,试图为自己在美国注册一家公司,通过发送冷邮件向一群人索要身份证明,并成功说服其中一人提供身份证明,从而完成了公司注册。
到 2027 年,已有一些由 AI 运营的实验性数字企业,但它们竞争力不强,通常依赖于人类对其新颖性的兴趣,这实际上是一种补贴。
2025 年至 2027 年间的对齐研究主要由 Anthropic 推动。SAEs在 2024 年底达到流行顶峰后逐渐被遗忘,但到 2025 年底,基于识别激活空间中更一般的几何结构,一种新的可解释性范式开始形成。AI 控制设置被用于测试对抗“模型有机体”的错位失调情况,到 2027 年,这些“模型有机体”已经可以轻松地从正常环境中“黑”出来。
Anthropic 在模型权重安全方面达到了私营公司中的顶尖水平,但这也意味着攻击者转而将目标对准 OpenAI。当然,Anthropic 内部撰写了无数的安全报告,核心信息是:一切都取决于可解释性领域的突破,或者 AI 控制在超级智能模型上能否奏效。
“对齐”方面获得的实际证据仍然很少,这让许多研究者感到沮丧。尽管已经多次在实验环境中观察到模型“密谋”行为,但这些情况往往是人为构造的,或者情况复杂,以至于无法确定模型本该如何表现。最重要的研究似乎集中在“密谋”行为的上游属性,例如 2024 年 Greenblatt 等人发表的《大语言模型中的对齐伪装》一文推动的关于可纠正性的研究。尽管早期证据表明 AI 可纠正性方面存在严重问题,但 2025 年底到 2026 年初的元学习实验取得了有希望的进展,为训练 AI 具备可纠正性提供了一些实证支持。
到 2027 年,人们已经知道如何训练一个模型,使其要么能够被训练改变当前目标,要么无法被改变。Anthropic 将这一发现以及其他一些安全相关的研究成果披露给 OpenAI 和 Google,并向美国国务院提出建议,希望将其分享给中国的实验室,但遭到拒绝。
到 2027 年,新的可解释性范式取得了进展,AI 已基本完成所有工程工作,并承担了大量详细的构思任务。这一进展揭示了神经网络内部的模式分类以及特征表示类型。其中一些结构清晰整洁,但整体来看,模型的内部依然杂乱无章,不同部分之间存在大量冗余。此外,关于模型是否具有单一的“目标组件”这一假设变得不太可能,至少在训练过程中做出某些选择的情况下尤为如此。
Anthropic 在 2027 年对新对齐技术的测试案例是训练新一代模型——Claude 5 Epic,简称“Claude Epic”,其训练数据源自 Claude 5 Opus 精心策划的训练集。公司高层内部认为它将是一个完整的 AGI。可解释性团队将在训练的各个检查点观察模型的发展。
关于 Claude Epic 的安全评估报告已经撰写了无数篇,依然寄希望于运行评估、应用 AI 控制机制,并期待可解释性研究能在最后关头提供更可靠的保障。Anthropic 内部对该项目存在不同观点:一些人完全相信之前的可扩展监督工作已经足够,而另一些人则认为“意图对齐”最困难的部分可能会在某个关键时刻暴露出来。
在 2025 年最有希望的研究方向之一是对 AI 的思维链进行解释,这比整体可解释性研究更容易取得有意义的进展。然而,在 2026-2027 年,越来越多的算力被投入到强化学习中,导致 COT 变得难以解读,因为模型逐渐倾向于使用更符合自身需求的简写脚本,而不是以英文完整地写出推理过程。
Anthropic 与多所学术实验室合作,开发了促进 COT 可解释性的技术,比如在强化学习的损失函数中加入 COT 可解释性项,并引入一些巧妙的训练细节,以防止模型“Goodhart”这一优化目标。然而,这些方法会导致模型性能下降。
到 2027 年,另一个研究方向是让人类深入研究模型的 COT,并学习其思维方式。尤其是一些数学家从模型的 COT 中掌握了一些巧妙的思维技巧。然而,整体来看,COT 的可解释性仍在下降,人们普遍接受一个现实:即便 COT 分析和新一代可解释性技术能在 2027 年提供一定程度的理解,我们仍然无法确切知道模型在想什么,以及它为什么会做出某些决策。
到 2027 年,评估结果显示,前沿 AI 模型如果被恶意行为者利用,确实有可能在工程化大流行病方面发挥重大作用。各大 AI 安全组织以及政府内的多个机构,虽然在 API 访问模型上实施了一些滥用防范措施,但整体应对仍显得混乱且效果有限。
此外,在未发生重大事件的情况下,政府的关注度依然不足,而开源模型的扩散难以遏制。另一方面,生物恐怖主义仍然受限于湿实验室技术的门槛,以及迄今为止的“运气”,即尚未出现真正有能力的生物恐怖分子。
另一种潜在的灾难性滥用是网络安全领域,但这一风险似乎正逐渐得到缓解,尤其是因为 AI 在编写安全代码方面表现出色,并且形式验证在关键代码中的应用日益广泛,使得网络安全整体状况有所改善。
过去一年里,AI 代码生成技术的疯狂进步,以及 AI 整体稳步提升,使越来越多的人直观地认识到:未来并不会存在太多“桌上的容易赚到的钱”等着某个新生 AGI 来吞噬,因为它将进入一个已经充满 AI 系统、人类及其复杂交互的生态环境。
例如,尽管技术上确实存在一些自给自足、能够支付自身服务器成本的 AI,但这些 AI 业务很难与那些刻意吸引其客户的“人类+AI”实体竞争。因此,如果某个“纯 AI”企业发展过大,总会有竞争对手主动挤压它的市场。此外,网络安全竞争日趋激烈,使得任何单独的“流氓 AI”想要击败全球其他 AI 和人类系统都变得异常困难。
然而,到了 2027 年底,依然没有确凿证据能排除“突飞猛进”式的 AGI 崛起的可能性。相信这一可能性的人群逐渐分化,一部分人变得极度焦虑和恐慌,而另一部分人则表现出一种冷静的宿命论态度,接受现实,并认为最终的“长期自主规划”能力迟早会完成拼图,并导致世界陷入毁灭。此外,各大 AI 实验室已经公开讨论“递归自我改进”作为其战略方向。