机器之心 03月07日 15:39
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DiffSensei是由北京大学、上海人工智能实验室、南洋理工大学联合推出的首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。它通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。同时,团队发布了首个专为漫画生成设计的 MangaZero 数据集,包含4.3万页漫画与42.7万标注面板。实验表明,DiffSensei在角色一致性、文本跟随能力与图像质量上显著优于现有模型,为漫画创作等场景提供了高效工具。

🎭**角色一致性**:DiffSensei能够跨面板保持角色特征稳定,支持连续叙事,并可根据文本动态调整角色状态和动作,突破了传统模型的静态生成限制。

✍️**布局精准**:该框架通过掩码机制与边界框标注,实现了多角色与对话框的像素级定位,为漫画创作提供了像素级的控制能力。

📚**MangaZero数据集**:团队发布了首个专为漫画生成设计的MangaZero数据集,包含4.3万页漫画与42.7万标注面板,填补了该领域的数据空白。该数据集规模更大,来源更新,标注更丰富,漫画以及画面分辨率更多样。

🤖**MLLM驱动的动态适配器**:DiffSensei以多模态大语言模型为核心,接收面板标题与源角色特征,生成与文本兼容的目标角色特征,动态调整表情、姿势等属性。

2025-03-07 12:38 北京

首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。


随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。


为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。




该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。同时,团队发布了首个专为漫画生成设计的 MangaZero 数据集(含 4.3 万页漫画与 42.7 万标注面板),填补了该领域的数据空白。实验表明,DiffSensei 在角色一致性、文本跟随能力与图像质量上显著优于现有模型,为漫画创作、教育可视化、广告设计等场景提供了高效工具。

 

团队公开了训练,测试代码、预训练模型及 MangaZero 数据集,支持本地部署。开发者可通过 Hugging Face 获取资源,并利用 Gradio 界面快速体验生成效果。



1.DiffSensei 效果及应用



DiffSensei 功能


DiffSensei 生成漫画的技术优势:



2.DiffSensei 应用场景


真人长篇故事生成


DiffSensei 真人长篇故事生成效果


定制漫画生成


DiffSensei 定制漫画生成效果


更多结果


DiffSensei 生成整页漫画结果,每页漫画的故事梗概在其上方,更多结果在项目主页


4. 模型框架


DiffSensei 方法框架


DiffSensei 的技术架构以 “动态角色控制” “高效布局生成” 为核心,通过以下模块实现端到端的漫画生成:



5.MangaZero 数据集


MangaZero 数据集统计信息


上图展示了 MangaZero 数据集的基本信息,该数据集中包含最著名的日本黑白漫画系列。图 a 显示了所有 48 系列的封面。这些漫画系列之所以被选中,主要是因为它们的受欢迎程度、独特的艺术风格和广泛的人物阵容,为该模型提供了发展强大而灵活的 IP 保持能力。


图 b 展示了一些人物和对话标注的示例。


图 c 描绘了数据集中的面板分辨率分布。为了提高清晰度,其中包括三条参考线,分别表示 1024×1024、512×512 和 256×256 的分辨率。大多数漫画画板都集中在第二行和第三行周围,这表明与最近研究中通常强调的分辨率相比,大多数画板的分辨率相对较低。这一特性是漫画数据所固有的,该工作专门针对漫画数据。因此,可变分辨率训练对于有效处理漫画数据集至关重要。


MangaZero 数据集和同类数据集对比


MangaZero 数据集相比同类数据,规模更大,来源更新,标注更丰富,漫画以及画面分辨率更多样。与广为人知的黑白漫画数据集 Manga109 相比,MangaZero 数据集收录了更多在 2000 年之后出版的漫画,这也正是其名称的由来。此外,MangaZero 还包含一些 2000 年之前发行、但并未收录于 Manga109 的著名作品,例如《哆啦 A 梦》(1974 年)。


MangaZero 数据集标注流程


上图展示了 MangaDex 数据集的构建过程,作者通过三个步骤构建 MangaZero 数据集。



MangaZero 数据集应用潜力


 

6. 结论


DiffSensei 通过多模态技术的深度融合,重新定义了 AI 辅助创作的边界。其开源属性与行业适配性,将加速漫画生成从实验工具向产业级应用的跨越。未来,研究方向可扩展至彩色漫画与动画生成,进一步推动视觉叙事技术的普惠化。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DiffSensei 多模态大语言模型 漫画生成 MangaZero数据集
相关文章