Bilibiliは、テキストからアニメーション動画を自動生成する技術「Index-AniSora」の最新版を発表し、GitHub上でフルオープンソース化した。アニメPV、VTuber、国創など多様なスタイルに対応するこの技術は、最新の強化学習と報酬モデリングを融合している。
中核となるのは、アニメ動画専用の評価モデル「AnimeReward」である。これは人間の視点に基づき、滑らかさ、動きの幅、美的魅力、テキストとの整合性、画像との一致、キャラクターの一貫性という6つの指標で評価を行う。報酬モデルは、3万本以上の動画を専門評価者がスコア化して構築された。
また、同プロジェクトでは「GAPO(Gap-Aware Preference Optimization)」という新たな強化学習手法を導入。従来の手法が無視しがちだった「どれくらい好まれるか」という差分を損失関数に取り入れることで、生成品質と一貫性を効率的に向上させた。
実験では、CogVideoXやSFT(監督付き微調整)など従来モデルと比較して、キャラクターの一貫性や視覚品質、整合性などで大幅に上回る結果を記録。論文はIJCAI 2025に採択されており、今後、アニメ制作やVTuber、AIGCの実務応用も期待される。