IT之家 2024年10月21日
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智源研究院发布Emu3多模态世界模型,可理解和生成文本、图像、视频三种模态数据,在多项任务中表现优异,提供强大视觉tokenizer,实现多模态统一研究范式,且关键技术和模型已开源。

💻Emu3是智源研究院发布的原生多模态世界模型,仅基于下一个token预测,就能完成文本、图像、视频三种模态数据的理解与生成,无需扩散模型或组合方法。

🎨在图像生成任务中,基于人类偏好评测,Emu3优于SD-1.5与SDXL模型;在视觉语言理解任务中,Emu3在12项基准测试的平均得分上优于LlaVA-1.6;在视频生成任务中,对于VBench基准测试得分,Emu3优于OpenSora 1.2。

🔍Emu3提供强大的视觉tokenizer,能将视频和图像转换为离散token,这些视觉离散token可与文本tokenizer输出的离散token一起送入模型,模型输出的离散token又可转换为文本、图像和视频,为Any-to-Any任务提供更统一研究范式。

IT之家 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统

在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。

据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时,该模型输出的离散 token 可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。

▲ Emu3 生成的图像

Emu3 研究结果证明,下一个 token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。

目前 Emu3 已开源了关键技术和模型,IT之家附链接如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Emu3 多模态 智源研究院
相关文章