02月11日
业界首次!豆包视频生成模型“VideoWorld”可仅靠视觉认知世界,现已开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

豆包大模型团队联合高校推出了业界首个视频生成实验模型VideoWorld,该模型无需依赖语言模型即可认知世界,这与Sora等主流模型不同。VideoWorld仅通过浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。实验表明,仅300M参数量下,VideoWorld已取得可观的模型表现。它通过视觉信息学习,摆脱了对语言或标签数据的依赖,更有效地捕捉真实世界中的知识。VideoWorld实现了统一执行理解和推理任务,并基于潜在动态模型,高效压缩视频帧间的变化信息,提升知识学习效率。在不依赖强化学习前提下,VideoWorld达到了专业围棋水平,并能执行机器人任务。

🚀 VideoWorld模型:由豆包大模型团队联合北京交通大学、中国科学技术大学提出,是业界首个无需依赖语言模型的视频生成实验模型,实现了对世界的认知。

👁️ 纯视觉学习:VideoWorld仅通过“视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力,这与依赖语言或标签数据学习知识的现有模型不同。

🔀 统一执行理解和推理:VideoWorld去掉了语言模型,实现了统一执行理解和推理任务,同时基于潜在动态模型,可高效压缩视频帧间的变化信息,提升知识学习效率和效果。

🤖 机器人任务与围棋水平:在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。

业界首个

视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。

不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。 

正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”,VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。

团队实验发现,仅 300M 参数量下,VideoWorld 已取得可观的模型表现。

现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。

然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。

作为一种通用视频生成实验模型,VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。

同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。

在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

团队认为,尽管面向真实世界的视频生成和泛化仍存在很大挑战,视频生成依然可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。

目前,该项目代码与模型已开源,欢迎体验交流。

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

论文链接:https://arxiv.org/abs/2501.09781

代码链接:https://github.com/bytedance/VideoWorld

项目主页:https://maverickren.github.io/VideoWorld.github.io

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VideoWorld 视频生成 视觉认知 豆包大模型
相关文章