アリババのAI研究拠点であるTongyi Labは、次世代の動画生成モデル「Wan 2.2」をオープンソースで公開した。今回リリースされたのは、テキストから動画を生成する「Wan2.2-T2V-A14B」、画像から動画を生成する「Wan2.2-I2V-A14B」、そして両者を統合した軽量版「Wan2.2-IT2V-5B」の3モデル。いずれも業界初となるMoE(Mixture of Experts)構造を導入しており、総パラメータ数27Bのうち、アクティブパラメータは14Bに抑えられている。高ノイズと低ノイズに特化した専門モジュールを分担配置することで、計算効率を50%以上向上させた。
最大の特徴は「映画美学制御システム」の導入にある。ユーザーが「柔光」「暖色調」「低アングル」などの視覚的キーワードを指定することで、構図・光・色彩・微表情まで含めたビジュアル演出が自動生成される。実際のサンプルでは、夕焼けやSF映画風の演出、人物の繊細な表情変化など、既存のオープンソースモデルを凌駕する表現力を備えている。
特に注目すべきは、小型モデル「Wan2.2-IT2V-5B」の性能だ。このモデルは、文・画像どちらからも動画を生成できる統合構造を持ち、3D VAEによる高圧縮設計(4×16×16)で情報圧縮率は最大64倍。わずか22GBのGPUメモリで、24fps・720pの高精細5秒動画を数分で生成できる。GitHub上ではモデルの構成、トレーニングコード、推論スクリプト、デモ用ノートブック(Colab対応)も公開されており、研究用途にも導入しやすい。
Wanシリーズは、2024年2月以降も継続的に進化を重ねており、これまでに文生動画・画像生動画・フレーム編集など複数の生成系統を開源してきた。今回のWan 2.2は、その集大成として設計されており、オープンソース動画生成分野における新たな基準を打ち立てつつある。