腾讯混元图像2.0正式发布首个毫秒级响应的实时生图大模型

Cnbeta 05月16日 14:23

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

腾讯正式推出混元图像2.0，这是一个毫秒级响应的实时生图大模型。该模型在腾讯混元官网开放体验，主要特点是实时生图和超写实画质。与前代相比，混元图像2.0参数量大幅提升，生图速度显著加快，达到毫秒级响应，用户可边打字边出图。此外，该模型图像生成质量明显提高，通过强化学习和人类美学知识对齐，生成的图像真实感强、细节丰富。混元图像2.0引入多模态大语言模型，能准确理解复杂文本指令，支持语音输入和草图输入，提供更便捷的创作方式。

🚀 混元图像2.0的核心优势在于其卓越的生图速度。它实现了毫秒级响应，远超行业内其他模型5到10秒的推理速度。这意味着用户可以实现即时创作，如边打字边出图，改变了传统的等待模式。

🎨 在图像质量方面，混元图像2.0通过参数量的大幅提升、强化学习算法以及人类美学知识的引入，大幅提升了生成图像的真实感和细节丰富度，有效避免了AIGC图像中常见的“AI味”。

🗣️ 混元图像2.0具备强大的文本理解能力，这得益于多模态大语言模型（MLLM）的运用和自研的结构化caption系统。它能够准确理解复杂文本指令，甚至可以解析用户在提示词中埋藏的多层含义，从而生成更符合用户意图的图像。

🎤 混元图像2.0支持语音输入和草图输入。用户可以通过语音直接输入提示词，系统自动转写并生成图像，方便直播讲解和移动创作。此外，用户还可以上传草图，模型能识别线稿结构和构图逻辑，结合提示词补全细节，快速生成图像。

今天腾讯正式发布了业内首个毫秒级响应的实时生图大模型——混元图像2.0（Hunyuan Image2.0）。目前已经在腾讯混元官方网站上线，并对外开放注册体验，该模型主要有两大特点：实时生图、超写实画质。

相比前代模型，腾讯混元图像2.0模型参数量提升了一个数量级，得益于超高压缩倍率的图像编解码器以及全新扩散架构，其生图速度显著快于行业领先模型。

在同类商业产品每张图推理速度需要5到10秒的情况下，腾讯混元可实现毫秒级响应，支持用户可以一边打字或者一边说话一边出图，改变了传统“抽卡—等待—抽卡”的方式。

除了速度快以外，腾讯混元图像2.0模型图像生成质量提升明显，通过强化学习等算法以及引入大量人类美学知识对齐，生成的图像可有效避免AIGC图像中的“AI味”，真实感强、细节丰富、可用性高。

在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准GenEval（Geneval Bench）上，腾讯混元图像2.0模型准确率超过95%，远超其他同类模型。

提示词：人像摄影，爱因斯坦，背景是东方明珠，自拍视角

腾讯表示，腾讯混元图像2.0引入多模态大语言模型（MLLM）作为文本编码器，配合自研的结构化caption系统，不仅能理解你在说什么，更能推测出你希望画面「怎么表达」。

哪怕你一句话里埋了三层含义，它也能一一拆解，再一笔一笔画出来。

除了文字输入，腾讯混元图像2.0还可以通过语音直接输入提示词，系统将语音自动转写为文字，并在识别后即时生成图像，适用于直播讲解、移动创作等场景。

也可以上传草图作为参考，模型能自动识别线稿的结构与构图逻辑，再结合提示词内容补全光影、材质、背景等细节，迅速扩展成图。

腾讯混元图像2.0模型生成的图片：

人像摄影风格

动物特写

复古摄影

动漫风格

真实人物风格

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签