Index-AniSora：B站开源动画生成模型，斩获多项SOTA入选IJCAI25

2025-05-19 12:05 四川

番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成！

B 站开源动画视频生成模型 Index-AniSora，支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成！

论文标题：AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era

论文地址：https://arxiv.org/abs/2412.10255

项目主页：https://github.com/bilibili/Index-anisora

整个工作技术原理基于 B 站提出的 AniSora 实现，该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统，是首个专为二次元视频生成打造的技术框架，全面提升动画内容的生产效率与质量。

喜欢的漫画一键出动画效果，支持多种小众画风，效果更加丰富，从此告别「PPT 动画」

提示词：画面中一个人在快速向前奔跑，他奔跑的速度很快使得人物有些模糊

引导帧首帧

生成的视频

提示词：画面中的人物向上抬了下手臂，他手臂上的气体在流动

引导帧首帧

生成的视频

提示词：左边男人紧紧抿着嘴唇，脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时，另一个男人的嘴巴张得大大的，仿佛即将开口大声说话或大喊大叫

引导帧首帧

生成的视频

提示词：画面中展现了石块发生爆炸的场景，发出刺眼的光芒，碎石四处飞散

引导帧首帧

生成的视频

简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路，构建了超过千万条高质量的文本 - 视频对，包含了大量不同风格、类型、内容的高质量动画数据，为模型训练提供了坚实的数据基础。

其次，针对动画生成的独特需求，我们开发了统一的扩散生成框架，并引入时空掩码机制，灵活支持图生视频、插帧补全和局部控制等任务，实现对角色口型、动作乃至局部区域的精细控制，显著增强内容生成的可控性和创作自由度。

最后，我们设计了首个面向动画视频的专用评估基准，涵盖多个二次元子类型，填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化，使其更好地理解动漫语境与 ACG 审美，从而构建出更贴合创作者真实需求的自动化视频评估系统。

时域条件控制（对应任务如视频插帧、扩写开头）

引导帧首帧

尾帧

生成的视频

引导帧尾帧

生成的视频

运动空间条件控制

引导帧首帧

运动掩码 1

生成的视频（带有掩码的可视化）

运动掩码 2

生成的视频（带有掩码的可视化）

运动强度控制

提示词：一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫，它正在一个小盒子上的碗里吃东西

引导帧首帧

正常强度

大幅强度

详细的技术方案，请看：

B 站自研动画视频生成模型全链路技术报告

本次开源内容包括：

AniSoraV1.0：基于 CogVideoX-5B 基座模型训练，包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制（首帧引导、尾帧引导、关键帧插值、多帧引导等）。4090 可部署的高性价比模型，支持覆盖 80% 的应用场景。

AniSoraV2.0：基于 Wan2.1-14B 基座模型训练，基座模型更强，效果更加稳定，覆盖 90% 的应用场景。采用蒸馏加速方案，保证效果的同时，提升推理性能。同样，会发布全部的训练和推理代码，包括对国产芯片华为 910B 高效分布式训练的支持，AniSora 模型完全基于国产芯片训练完成。

训练数据集构建的全链路模型，帮助快速扩展训练数据。

基于动画数据优化的 Benchmark 系统，专门为动画视频生成领域研发的自动化评测系统，以及标准测试数据集，更加符合 ACG 审美要求。

此外，我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL，提供更加高效的视频效果强化训练，更加符合二次元审美的模型。该工作的预印版已经整理在arxiv上。