IT之家 02月10日
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

豆包大模型团队联合高校开源了视频生成实验模型VideoWorld,该模型与Sora等主流模型不同,首次在业界实现无需依赖语言模型即可认知世界。现有模型多依赖语言学习,但语言无法捕捉所有知识,如折纸等复杂任务难以用语言表达。VideoWorld 去掉语言模型,统一执行理解和推理任务,基于潜在动态模型高效压缩视频帧间变化信息,提升知识学习效率。在无强化学习前提下,VideoWorld 达到了专业 5 段围棋水平,并能执行机器人任务。

💡VideoWorld是由豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型,已于今日开源。

👁️‍🗨️VideoWorld与Sora等主流多模态模型的主要区别在于,它在业界首次实现了无需依赖语言模型即可认知世界,摆脱了对语言或标签数据的依赖。

🤖该模型基于一种潜在动态模型,能够高效压缩视频帧间的变化信息,从而显著提升知识学习的效率和效果。

🧮在不依赖任何强化学习搜索或奖励函数机制的前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。

IT之家 2 月 10 日消息,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”今日开源。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。

据介绍,现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如折纸、打领结等复杂任务,难以通过语言清晰表达。而 VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。

同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

IT之家附有关地址如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VideoWorld 视频生成 开源模型 人工智能 视觉学习
相关文章