豆包视频生成大模型发布：首次突破多主体互动难关

快科技资讯 2024年09月24日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

字节跳动发布两款豆包视频生成大模型，该模型语义理解能力卓越，能精准捕捉复杂交互画面，细节处理极致，依托自主研发架构，采用新训练方法，已开启内测。

🥳字节跳动正式宣告进军AI视频生成，发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。这些模型具有卓越的语义理解能力，能够深度理解并响应复杂指令，驱动不同人物角色完成精细动作互动。

🤩豆包视频生成大模型在细节处理上达到极高水平，从人物样貌、服装到头饰的呈现都极为精准，且在不同运镜角度下能保持高度一致，给人以实拍般的自然流畅感。

👏该模型依托字节跳动自主研发的DiT架构，通过高效融合计算单元实现视频在大动态场景与多样运镜间的无缝切换，还采用全新设计的扩散模型训练方法，攻克多镜头切换中的技术难题，提升视频创作的专业性和观赏性。

快科技9月24日消息，据媒体报道，字节跳动正式宣告进军AI视频生成。发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型发布，面向企业市场开启邀测。

“豆包视频生成”大模型凭借其卓越的语义理解能力、对复杂交互画面的精准捕捉以及多镜头切换下的内容一致性，成功跻身业界先进水平。

该模型不仅能够深度理解并响应复杂指令，驱动不同人物角色完成一系列精细的动作互动，更在细节处理上达到了极致，从人物样貌、服装的微妙变化到头饰的精准呈现，均能在不同运镜角度下保持高度一致，仿佛实拍般自然流畅。

值得一提的是，“豆包视频生成”模型依托字节跳动自主研发的DiT（Dynamic Integration Transformer）架构，通过高效的DiT融合计算单元，实现了视频在大动态场景与多样运镜之间的无缝切换。这一技术突破赋予了视频变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力，让视频创作更加自由灵动，满足了创作者对视觉表达的无限想象。

为了进一步提升视频创作的专业性和观赏性，“豆包视频生成”团队还创新性地采用了全新设计的扩散模型训练方法。

这一方法有效攻克了多镜头切换过程中保持主体、风格、氛围一致性的技术难题，确保在镜头切换的瞬间，视频的整体氛围与细节表现依然和谐统一，为观众带来更加沉浸式的观看体验。

目前，“豆包视频生成”系列模型已在即梦AI内测版中开启小范围测试，旨在收集宝贵的用户反馈，不断优化产品性能。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签