アリババのTongyi Lab、映画美学を操る動画生成モデル「Wan 2.2」をオープンソース公開──MoE構造と軽量統合モデルで差別化

出典:https://mp.weixin.qq.com/s/iPL7OLQhwYdoFelHt41N6Q

Wan 2.2 model
概要ポイント
  • Tongyi LabがMoE構造採用の動画生成モデル「Wan 2.2」を公開
  • 文・画像・統合形式の3タイプの生成モデルを同時オープンソース化
  • 「映画美学制御システム」により、光影・色彩・構図などを詳細に調整可能
  • 軽量な統合モデルは22GBの単一GPUで720p/5秒の動画を数分で生成
  • GitHubではサンプルコードやモデルウェイト、推論パイプラインも公開
本文

アリババのAI研究拠点であるTongyi Labは、次世代の動画生成モデル「Wan 2.2」をオープンソースで公開した。今回リリースされたのは、テキストから動画を生成する「Wan2.2-T2V-A14B」、画像から動画を生成する「Wan2.2-I2V-A14B」、そして両者を統合した軽量版「Wan2.2-IT2V-5B」の3モデル。いずれも業界初となるMoE(Mixture of Experts)構造を導入しており、総パラメータ数27Bのうち、アクティブパラメータは14Bに抑えられている。高ノイズと低ノイズに特化した専門モジュールを分担配置することで、計算効率を50%以上向上させた。


最大の特徴は「映画美学制御システム」の導入にある。ユーザーが「柔光」「暖色調」「低アングル」などの視覚的キーワードを指定することで、構図・光・色彩・微表情まで含めたビジュアル演出が自動生成される。実際のサンプルでは、夕焼けやSF映画風の演出、人物の繊細な表情変化など、既存のオープンソースモデルを凌駕する表現力を備えている。


特に注目すべきは、小型モデル「Wan2.2-IT2V-5B」の性能だ。このモデルは、文・画像どちらからも動画を生成できる統合構造を持ち、3D VAEによる高圧縮設計(4×16×16)で情報圧縮率は最大64倍。わずか22GBのGPUメモリで、24fps・720pの高精細5秒動画を数分で生成できる。GitHub上ではモデルの構成、トレーニングコード、推論スクリプト、デモ用ノートブック(Colab対応)も公開されており、研究用途にも導入しやすい。


Wanシリーズは、2024年2月以降も継続的に進化を重ねており、これまでに文生動画・画像生動画・フレーム編集など複数の生成系統を開源してきた。今回のWan 2.2は、その集大成として設計されており、オープンソース動画生成分野における新たな基準を打ち立てつつある。