36kr 05月22日 15:59
腾讯混元上新:多模态和智能体,两手都要抓 | 最前线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯混元大模型迎来全面升级,包括旗舰快思考模型混元TurboS和深度思考模型混元T1的迭代版本。基于TurboS,腾讯还推出了视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。混元TurboS在Chatbot Arena上排名全球前八,理科能力进入全球前十。混元T1在竞赛数学、常识问答和Agent能力上均有提升。腾讯还将大模型知识引擎升级为“腾讯云智能体开发平台”,整合RAG技术和Agent能力,帮助企业快速激活私域知识,构建专属智能体。混元已广泛应用于微信、QQ、腾讯元宝等产品。

🚀 **混元TurboS性能提升**:腾讯混元TurboS模型采用大规模混合Mamba-MoE模型,通过tokens增训和长短思维链融合技术,理科推理能力提升超10%,代码能力提升24%,竞赛数学成绩大幅提升39%。

👁️‍🗨️ **视觉深度推理模型T1-Vision**:新发布的混元视觉深度推理模型T1-Vision支持多图输入,具备原生长思维链,能够实现“边看图边思考”,整体效果相比此前提升 5.3%,整体理解速度提升50%。

🗣️ **端到端语音通话模型混元Voice**:混元Voice是一款端到端语音通话模型,能够实现低延迟语音通话,相比级联方案,响应速度提升超过30%,降至1.6秒,拟人性和情绪应用能力也有明显提升,已在腾讯元宝App灰度上线。

🤖 **智能体开放平台升级**:腾讯将大模型知识引擎升级为“腾讯云智能体开发平台”,整合腾讯云的RAG技术和全面的Agent能力,帮助企业快速激活私域知识,构建专属智能体。

🌐 **混元模型开源计划**:混元计划推出多尺寸混合推理模型,从0.5B到32B的dense模型,以及激活13B的MoE模型,适配企业与端侧不同需求。混元图像、视频、3D等多模态基础模型及配套插件模型也将持续开源。

作者 | 邓咏仪

编辑 | 苏建勋

腾讯大模型的战略落地上正不断提速。

“AI持续落地,每个企业正在成为AI公司,每个人也将成为AI加持的‘超级个体’。”5月21日,腾讯云AI产业应用峰会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示。

5 月 21 日,腾讯混元迎来了一次全面升级,其中包括旗舰快思考模型混元TurboS、深度思考模型混元T1都发布了新的迭代版本。

基于TurboS基座,腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。在腾讯AI产业应用峰会上,混元图像2.0、混元3D v2.5及混元游戏视觉生成等一系列多模态模型,也同步上新。

汤道生 来源:腾讯

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,在全球公认的权威大语言模型评测平台Chatbot Arena上,混元TurboS排名已攀升至全球前八,在国内仅次于DeepSeek。其中,代码、数学等理科能力,混元TurboS也进入全球前十。

2025年初,混元TurboS正式发布,采用大规模混合Mamba-MoE模型,其在效果与性能上已展现出显著优势。而这一最新突破,则得益于预训练阶段的tokens增训,以及后训练阶段引入长短思维链融合技术,使得TurboS理科推理提升超10%,代码能力提升24%,竞赛数学成绩大幅提升了39%。

来源:腾讯

早在去年下半年,腾讯就大力投入了深度思考模型的路线攻关。深度思考模型混元T1自年初上线元宝App后,持续快速迭代。近期,混元T1也迎来新升级,在多项核心能力上均实现了提升:其中,在竞赛数学上效果提升8%;在常识问答上提升8%;在复杂任务的Agent能力提升了13%。

目前,国内大模型市场已经呈现出百花齐放的特点,各家大模型都有自己的技术特长点。

比如,混元的多模态模型,如3D、视频生成等功能,在开发者圈内就颇有口碑。

本次新发布的混元视觉深度推理模型T1-Vision,支持多图输入,具备原生长思维链。在具体产品呈现效果上,能够实现“边看图边思考”,整体效果相比此前提升 5.3%,整体理解速度提升50%。

另外一款语音模型混元Voice,是一款端到端语音通话模型。模型能够实现低延迟语音通话,相比级联方案,响应速度提升超过30%,降至1.6秒。拟人性和情绪应用能力也有明显提升,目前已在腾讯元宝App灰度上线。实时视频通话AI体验也会在近期推出。

一个有意思之处是,腾讯在介绍混元2.0的生图时,提到了一个数字——在主观画面质量和美学层面的人工测评中,混元图像2.0也被认为是“AI味”最少的模型之一。

某种程度上,这也意味着,在基础模型百花齐放之后,模型输出结果的多元性、审美等因素,已经开始被纳入评价标准之一。

知识引擎全面升级为“智能体开放平台”

本次峰会的另一个发布亮点,是腾讯的智能体战略。

2025年被称为Agent智能体元年,随着推理模型、多模态模型的爆发,智能体成为今年大模型领域各家最关注的方向。

腾讯这次峰会的一个关键动作,就是将原来的大模型知识引擎,升级为“腾讯云智能体开发平台”。

据悉升级后的平台,整合腾讯云的RAG(检索增强生成)技术、全面的 Agent(智能体)能力,能够帮助企业快速激活私域知识,以及构建专属智能体。

为什么要在这个时候,升级一个全新的智能体平台?

腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声表示,升级智能体平台,是因为希望帮助企业真正用得起、用得好智能体,而不是停留在概念阶段。

技术的发展推动了智能体快速落地,也是重要原因。“过去用传统 AI 技术实现这些能力的时候,其实效果并不理想。比如抽取关键词、生成摘要这类任务,对语言理解能力要求很高。”吴运声表示。

但在有了大模型,特别是多模态大模型后,在语义理解、上下文建模、内容切分、标签生成等方面都有显著提升。最直接的影响是,大模型让语义检索、比对的准确度迅速提升;多模态模型的发展,让视觉+文本协同任务变得可能了。

“如果Agent具备了使用浏览器的能力,那它的‘行为边界’就大大拓展了,可以覆盖很多真实场景。”吴运声表示。

开源同样是这次发布会的重点之一。

当前,混元3D模型在Hugging Face上下载量超过160万。未来,混元计划推出多尺寸混合推理模型,从0.5B到32B的dense模型,以及激活13B的MoE模型,适配企业与端侧不同需求。

并且,混元图像、视频、3D等多模态基础模型及配套插件模型也将持续开源。

目前,混元已深度融入腾讯各业务线,广泛应用于微信、QQ、腾讯元宝、腾讯会议、腾讯文档等核心产品,提升腾讯内部产品的智能化水平,并通过腾讯云向外输出模型能力,帮助企业和开发者创新提效。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

腾讯混元 大模型 AI智能体 多模态模型 开源
相关文章