IT之家 8 月 15 日消息,腾讯今日宣布,混元团队推出 Lite 版本,通过引入动态 FP8 量化,将模型显存需求从原本的 26GB 优化至 17GB 以下,成功适配消费级显卡。
同时,通过引入 FP8 量化注意力算子,混元团队将 Transformer 中的 Q、K、V 矩阵量化 INT8,同时结合动态平滑与硬件优化,实现推理速度提升 3 倍以上,精度损失 < 1% 。结合 Attention 量化和线性层量化后显著降低模型运行所需显存。
除显存方面外,混元团队还集成了 Cache 算法,通过优化冗余时间步,显著提升推理效率,让模型运行更加流畅。通过自动化搜参工具识别出关键时间步和 block,优化冗余时间步,显著提升推理效率,让模型运行更加流畅。
除了清晰的视觉质量以及更低的推理成本,区别于业界已有方法,混元 3D 世界模型 1.0 不仅能生成“可看”的场景,更进一步实现了对场景中的天空、地面、植被、物体等不同组件分层建模。并且生成的世界可导出为 3D mesh 格式文件,无缝接入游戏、物理引擎,进行二创,如游戏开发、影视制作、物理仿真等。
腾讯混元 3D 世界模型 1.0,是业界首个开源可编辑的世界生成模型,用户只需输入一句话或上传一张图片,就能生成一个完整、可漫游的 3D 世界,这一创新不仅降低了 3D 内容创作的门槛,也为游戏开发、VR、数字内容创作等领域带来了全新的可能性。
通过结合全景生成与层次化 3D 重建等技术,混元 3D 世界模型 1.0 同时支持文字或者图片输入,实现了可交互、可编辑、高质量的 360 度可漫游场景生成。混元 3D 世界模型的技术亮点在于其全方位的场景生成能力和高度的可编辑性。通过层次化 3D 场景表征及生成算法,该模型支持 3D Mesh 导出,在保证生成场景的逼真度和沉浸感的同时,兼容已有 CG 管线进行二次开发,如游戏开发、物理仿真、场景编辑等。
自发布以来,混元 3D 世界模型 1.0 在社区中备受关注,其卓越的世界生成能力为用户带来了全新 AI 体验。然而,显存开销大的问题是用户反馈的最大痛点,即使开启 pipeline offloading(流水线卸载)技术,仍需 26GB 以上显存,大多数消费级显卡无法运行。
为了让更多中小企业及个人开发者能够便捷使用混元 3D 世界模型 1.0,混元团队推出了混元 3D 世界模型 1.0-Lite 版本,让消费级显卡也能跑世界模型。
下面是混元世界模型 1.0-Lite 消费级显卡运行效果:
可漫游场景效果(消费级显卡运行):
量化前后效果对比:
IT之家附官方地址:
官网地址:https://3d.hunyuan.tencent.com/sceneTo3D
Github 项目地址:https://github.com/ Tencent-Hunyuan / HunyuanWorld-1.0
Hugging Face 模型地址:https://huggingface.co/ tencent / HunyuanWorld-1
技术报告地址:https://arxiv.org/abs / 2507.21809