机器之心 前天 14:50
Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

B站开源了动画视频生成模型Index-AniSora,该模型专为二次元视频生成打造,支持番剧、国创、漫改动画、VTuber、鬼畜动画等多种风格。其技术原理基于B站提出的AniSora实现,已被IJCAI25接收。AniSora通过高效的数据处理链路构建了超千万条高质量文本-视频对,开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务。同时,B站还设计了首个面向动画视频的专用评估基准。

✨AniSora是首个专为二次元视频生成打造的技术框架,旨在全面提升动画内容的生产效率与质量,让用户可以轻松实现喜欢的漫画一键生成动画效果,支持多种小众画风。

⚙️通过构建超过千万条高质量的文本-视频对,AniSora为模型训练提供了坚实的数据基础,这些数据包含了大量不同风格、类型、内容的动画数据。

🎦AniSora开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。

📊B站设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白,并基于VLM模型进行了定向优化,使其更好地理解动漫语境与ACG审美。

2025-05-19 12:05 四川

番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!

B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!

整个工作技术原理基于 B 站提出的 AniSora 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量。

喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别 「PPT 动画

引导帧首帧

生成的视频

引导帧首帧

生成的视频

引导帧首帧

生成的视频

引导帧首帧

生成的视频

简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本 - 视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。

其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。

最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。

时域条件控制(对应任务如视频插帧、扩写开头)

引导帧首帧

尾帧

生成的视频

引导帧尾帧

生成的视频

运动空间条件控制

引导帧首帧

运动掩码 1

生成的视频(带有掩码的可视化)

运动掩码 2

生成的视频(带有掩码的可视化)

运动强度控制

引导帧首帧

正常强度

大幅强度

详细的技术方案,请看:

本次开源内容包括:

AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80% 的应用场景。

AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90% 的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。

训练数据集构建的全链路模型,帮助快速扩展训练数据。

基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。

此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在arxiv上。

下面简单说它的原理。

我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。

基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉 - 语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。

如果你已经跃跃欲试了,快前往:

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AniSora 动画生成 二次元 B站 开源
相关文章