🖥️ GitHub | 🤗 Hugging Face | 🤖 Model Scope | 📑 | 📑
中文简体 | English
本项目是哔哩哔哩献给二次元世界的礼物——Index‑AniSora,目前最强大的开源动漫视频生成模型。
它支持一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等!
该项目基于我们已被 IJCAI ’25 录用的论文
AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era
anisora_re2_small.mp4
2025/05/12🔥 所有成果均已开源,欢迎查看!2025/05/10🔥 论文被 IJCAI ’25 接收,已更新定稿版本。2024/12/19项目及评测基准首次在 arXiv 发布。
位置:📁 anisoraV1_infer
- 基于 CogVideoX‑5B 基础模型训练,完整训练与推理代码开源
- 支持 局部区域控制、时间控制(首帧/尾帧/关键帧插帧、多帧引导)
- 在 📁
anisoraV1_train_npu提供完整训练代码 - 可在 RTX 4090 上经济部署
- 覆盖 80 % 应用场景
位置:📁 anisoraV2_gpu, anisoraV2_npu
- 基于升级后的 Wan2.1‑14B 基础模型,稳定性更佳
- 蒸馏加速推理,无损画质,更快更省
- 原生支持华为 Ascend 910B NPU(全流程国产芯片训练)
- 高质量镜头生成,覆盖 90 % 应用场景
位置:📁 data_pipeline
- 端到端数据集流水线,快速扩充训练数据
- 动画数据清洗管道
位置:📁 reward
- 为动漫视频生成定制的评测模型与打分算法
- 适用于强化学习和基准测试的奖励模型
- 与 ACG 审美对齐的标准测试集
- 人工偏好对齐
该评测数据集包含 948 段动画视频片段,每个动作标签含 10–30 个视频。文本提示先由 Qwen‑VL2 自动生成,再由人工校对以确保文本‑视频对齐。
填写表格后以 PDF 形式发送至 [email protected] 或 [email protected](链接在同意协议后提供)。
位置:📁 anisora_rl
- 首个面向动漫视频生成的 RLHF 框架
- RL 优化后的 AniSora V1.0,可生成更具动漫风格的作品
- 详见预印本:Aligning Anime Video Generation with Human Feedback
- AniSora V2.0
- 支持 14B 版本,预计 5 月底前发布
- AniSora 数据集
- 开放高质量训练集申请
- AniSora 基准
- 更新最新 SOTA 模型性能
动画内容在当今影视行业中备受关注。
尽管 Sora、Kling、CogVideoX 等先进模型在自然视频生成方面表现出色,但在动漫视频上仍捉襟见肘。
此外,由于动漫独特的艺术风格、夸张的运动以及对物理规律的打破,也给评测带来了巨大挑战。
本文提出了完整的系统 AniSora,涵盖:
- 数据处理流水线:超过 1000 万高质量数据;
- 可控生成模型:引入时空掩码模块,支持图生视频、帧插值、局部图像引导等关键动画制作功能;
- 评测数据集:收集 948 段多样化动画视频,配套双盲人评实验及 VBench 测试,人物一致性与运动一致性均达到 SOTA。
下图展示了 Index‑AniSora 的整体框架:
主要特点:
- 搭建了完整的视频处理系统,显著提升生成前的数据预处理效率;
- 提出统一的时空掩码框架,用于动漫视频生成,可同时处理图生视频、帧插值、局部引导等任务;
- 发布面向动漫视频生成的专用基准数据集。
不同艺术风格的图生视频:
时间控制示例:
| 提示词 | 首帧 | 中间帧 | 末帧 | 视频 |
|---|---|---|---|---|
| 动画电影《美女与野兽》场景:贝儿身着紫色礼服,站在落地窗前对窗外说话,金发披肩。 | ![]() |
![]() |
![]() |
![]() |
| 夜晚,一位金发女子在车门后探出身子向外张望,星空与满月照亮场景,她神情担忧。 | ![]() |
无 | ![]() |
![]() |
| 一只卡通猫闭眼张口,似在捣蛋或好奇中,准备惊叫。 | 无 | 无 | ![]() |
![]() |
空间控制示例:
| 提示词 | 首帧 | 运动掩码 | 视频(含掩码可视化) |
|---|---|---|---|
| 在《海底总动员》的缤纷水下世界里,小丑鱼马林和尼莫在大型紫色珊瑚附近交谈…… | ![]() |
![]() |
![]() |
| 同上 | 同上 | ![]() |
![]() |
更多示例视频: 作品画廊
VBench 结果:
| 方法 | 运动平滑度 | 运动得分 | 美学质量 | 成像质量 | I2V 主体 | I2V 背景 | 整体一致性 | 主体一致性 |
|---|---|---|---|---|---|---|---|---|
| Opensora‑Plan(V1.3) | 99.13 | 76.45 | 53.21 | 65.11 | 93.53 | 94.71 | 21.67 | 88.86 |
| Opensora(V1.2) | 98.78 | 73.62 | 54.30 | 68.44 | 93.15 | 91.09 | 22.68 | 87.71 |
| Vidu | 97.71 | 77.51 | 53.68 | 69.23 | 92.25 | 93.06 | 20.87 | 88.27 |
| CogVideo(5B‑V1) | 97.67 | 71.47 | 54.87 | 68.16 | 90.68 | 91.79 | 21.87 | 90.29 |
| MiniMax | 99.20 | 66.53 | 54.56 | 71.67 | 95.95 | 95.42 | 21.82 | 93.62 |
| AniSora | 99.34 | 45.59 | 54.31 | 70.58 | 97.52 | 95.04 | 21.15 | 96.99 |
| AniSora‑K | 99.12 | 59.49 | 53.76 | 68.68 | 95.13 | 93.36 | 21.13 | 94.61 |
| AniSora‑I | 99.31 | 54.96 | 54.67 | 68.98 | 94.16 | 92.38 | 20.47 | 95.75 |
| GT | 98.72 | 56.05 | 52.70 | 70.50 | 96.02 | 95.03 | 21.29 | 94.37 |
AniSora 基准结果:
| 方法 | 人工评分 | 视觉平滑 | 视觉运动 | 视觉吸引力 | 文本‑视频一致 | 图像‑视频一致 | 角色一致性 |
|---|---|---|---|---|---|---|---|
| Vidu‑1.5 | 60.98 | 55.37 | 78.95 | 50.68 | 60.71 | 66.85 | 82.57 |
| Opensora‑V1.2 | 41.10 | 22.28 | 74.90 | 22.62 | 52.19 | 55.67 | 74.76 |
| Opensora‑Plan‑V1.3 | 46.14 | 35.08 | 77.47 | 36.14 | 56.19 | 59.42 | 81.19 |
| CogVideoX‑5B‑V1 | 53.29 | 39.91 | 73.07 | 39.59 | 67.98 | 65.49 | 83.07 |
| MiniMax-I2V01 | 69.63 | 69.38 | 68.05 | 70.34 | 76.14 | 78.74 | 89.47 |
| Wan-2.1 | - | 81.70 | 61.88 | 82.05 | 87.80 | 88.50 | 90.65 |
| AniSora-V1 (Ours) | 70.13 | 71.88 | 48.45 | 65.38 | 74.26 | 82.66 | 94.88 |
| AniSora-V2 (Ours) | - | 86.98 | 50.34 | 85.91 | 90.98 | 91.96 | 92.75 |
| AniSora-V1 (Interpolated Avg) | - | 70.78 | 53.02 | 64.41 | 73.56 | 80.62 | 91.59 |
| AniSora-V1 (KeyFrame Interp) | - | 70.03 | 58.10 | 64.57 | 74.57 | 80.78 | 91.98 |
| AniSora-V1 (KeyFrame Interp) | - | 70.03 | 58.10 | 64.57 | 74.57 | 80.78 | 91.98 |
| GT | - | 92.20 | 58.27 | 89.72 | 92.51 | 94.69 | 95.08 |
说明
AniSora:我们的 I2V 结果
AniSora‑K:关键帧插帧结果
AniSora‑I:帧插值(平均)结果
该基准数据集包含 948 段动画视频片段,每段标注不同动作。每个标签含 10–30 个视频,文本提示由 Qwen‑VL2 生成并经人工校对,确保文本‑视频对齐。
请填写 申请表 并将 PDF 发送至 [email protected] 或 [email protected](须先同意 B 站协议)。
特别感谢 CogVideoX、Wan2.1、FasterCache 以及 OSS 的宝贵工作。
如果本项目对您有帮助,请为我们的仓库点 Star,并引用下述论文:
@article{jiang2024anisora,
title={AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era},
author={Yudong Jiang, Baohan Xu, Siqian Yang, Mingyu Yin, Jing Liu, Chao Xu, Siqi Wang, Yidi Wu, Bingwen Zhu, Xinwen Zhang, Xingyu Zheng,Jixuan Xu, Yue Zhang, Jinlong Hou and Huyang Sun},
journal={arXiv preprint arXiv:2412.10255},
year={2024}
}
.png)
.gif)
.png)
.gif)
.png)
.gif)























