腾讯混元上新：多模态和智能体，两手都要抓

作者 | 邓咏仪

编辑 | 苏建勋

腾讯大模型的战略落地上正不断提速。

“AI持续落地，每个企业正在成为AI公司，每个人也将成为AI加持的‘超级个体’。”5月21日，腾讯云AI产业应用峰会上，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示。

5 月 21 日，腾讯混元迎来了一次全面升级，其中包括旗舰快思考模型混元TurboS、深度思考模型混元T1都发布了新的迭代版本。

基于TurboS基座，腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。在腾讯AI产业应用峰会上，混元图像2.0、混元3D v2.5及混元游戏视觉生成等一系列多模态模型，也同步上新。

汤道生来源：腾讯

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示，在全球公认的权威大语言模型评测平台Chatbot Arena上，混元TurboS排名已攀升至全球前八，在国内仅次于DeepSeek。其中，代码、数学等理科能力，混元TurboS也进入全球前十。

2025年初，混元TurboS正式发布，采用大规模混合Mamba-MoE模型，其在效果与性能上已展现出显著优势。而这一最新突破，则得益于预训练阶段的tokens增训，以及后训练阶段引入长短思维链融合技术，使得TurboS理科推理提升超10%，代码能力提升24%，竞赛数学成绩大幅提升了39%。

来源：腾讯

早在去年下半年，腾讯就大力投入了深度思考模型的路线攻关。深度思考模型混元T1自年初上线元宝App后，持续快速迭代。近期，混元T1也迎来新升级，在多项核心能力上均实现了提升：其中，在竞赛数学上效果提升8%；在常识问答上提升8%；在复杂任务的Agent能力提升了13%。

目前，国内大模型市场已经呈现出百花齐放的特点，各家大模型都有自己的技术特长点。

比如，混元的多模态模型，如3D、视频生成等功能，在开发者圈内就颇有口碑。

本次新发布的混元视觉深度推理模型T1-Vision，支持多图输入，具备原生长思维链。在具体产品呈现效果上，能够实现“边看图边思考”，整体效果相比此前提升 5.3%，整体理解速度提升50%。

另外一款语音模型混元Voice，是一款端到端语音通话模型。模型能够实现低延迟语音通话，相比级联方案，响应速度提升超过30%，降至1.6秒。拟人性和情绪应用能力也有明显提升，目前已在腾讯元宝App灰度上线。实时视频通话AI体验也会在近期推出。

一个有意思之处是，腾讯在介绍混元2.0的生图时，提到了一个数字——在主观画面质量和美学层面的人工测评中，混元图像2.0也被认为是“AI味”最少的模型之一。

某种程度上，这也意味着，在基础模型百花齐放之后，模型输出结果的多元性、审美等因素，已经开始被纳入评价标准之一。

本次峰会的另一个发布亮点，是腾讯的智能体战略。

2025年被称为Agent智能体元年，随着推理模型、多模态模型的爆发，智能体成为今年大模型领域各家最关注的方向。

腾讯这次峰会的一个关键动作，就是将原来的大模型知识引擎，升级为“腾讯云智能体开发平台”。

据悉升级后的平台，整合腾讯云的RAG（检索增强生成）技术、全面的 Agent（智能体）能力，能够帮助企业快速激活私域知识，以及构建专属智能体。

为什么要在这个时候，升级一个全新的智能体平台？

腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声表示，升级智能体平台，是因为希望帮助企业真正用得起、用得好智能体，而不是停留在概念阶段。

技术的发展推动了智能体快速落地，也是重要原因。“过去用传统 AI 技术实现这些能力的时候，其实效果并不理想。比如抽取关键词、生成摘要这类任务，对语言理解能力要求很高。”吴运声表示。

但在有了大模型，特别是多模态大模型后，在语义理解、上下文建模、内容切分、标签生成等方面都有显著提升。最直接的影响是，大模型让语义检索、比对的准确度迅速提升；多模态模型的发展，让视觉+文本协同任务变得可能了。

“如果Agent具备了使用浏览器的能力，那它的‘行为边界’就大大拓展了，可以覆盖很多真实场景。”吴运声表示。

开源同样是这次发布会的重点之一。

当前，混元3D模型在Hugging Face上下载量超过160万。未来，混元计划推出多尺寸混合推理模型，从0.5B到32B的dense模型，以及激活13B的MoE模型，适配企业与端侧不同需求。

并且，混元图像、视频、3D等多模态基础模型及配套插件模型也将持续开源。

目前，混元已深度融入腾讯各业务线，广泛应用于微信、QQ、腾讯元宝、腾讯会议、腾讯文档等核心产品，提升腾讯内部产品的智能化水平，并通过腾讯云向外输出模型能力，帮助企业和开发者创新提效。

Fish AI Reader