チャイナAI速報 | 中国AIニュースを日本語で速報

July 28/2025

アリババのTongyi Lab、映画美学を操る動画生成モデル「Wan 2.2」をオープンソース公開──MoE構造と軽量統合モデルで差別化

出典：https://mp.weixin.qq.com/s/iPL7OLQhwYdoFelHt41N6Q

概要ポイント

Tongyi LabがMoE構造採用の動画生成モデル「Wan 2.2」を公開
文・画像・統合形式の3タイプの生成モデルを同時オープンソース化
「映画美学制御システム」により、光影・色彩・構図などを詳細に調整可能
軽量な統合モデルは22GBの単一GPUで720p/5秒の動画を数分で生成
GitHubではサンプルコードやモデルウェイト、推論パイプラインも公開

本文

アリババのAI研究拠点であるTongyi Labは、次世代の動画生成モデル「Wan 2.2」をオープンソースで公開した。今回リリースされたのは、テキストから動画を生成する「Wan2.2-T2V-A14B」、画像から動画を生成する「Wan2.2-I2V-A14B」、そして両者を統合した軽量版「Wan2.2-IT2V-5B」の3モデル。いずれも業界初となるMoE（Mixture of Experts）構造を導入しており、総パラメータ数27Bのうち、アクティブパラメータは14Bに抑えられている。高ノイズと低ノイズに特化した専門モジュールを分担配置することで、計算効率を50％以上向上させた。

最大の特徴は「映画美学制御システム」の導入にある。ユーザーが「柔光」「暖色調」「低アングル」などの視覚的キーワードを指定することで、構図・光・色彩・微表情まで含めたビジュアル演出が自動生成される。実際のサンプルでは、夕焼けやSF映画風の演出、人物の繊細な表情変化など、既存のオープンソースモデルを凌駕する表現力を備えている。

特に注目すべきは、小型モデル「Wan2.2-IT2V-5B」の性能だ。このモデルは、文・画像どちらからも動画を生成できる統合構造を持ち、3D VAEによる高圧縮設計（4×16×16）で情報圧縮率は最大64倍。わずか22GBのGPUメモリで、24fps・720pの高精細5秒動画を数分で生成できる。GitHub上ではモデルの構成、トレーニングコード、推論スクリプト、デモ用ノートブック（Colab対応）も公開されており、研究用途にも導入しやすい。

Wanシリーズは、2024年2月以降も継続的に進化を重ねており、これまでに文生動画・画像生動画・フレーム編集など複数の生成系統を開源してきた。今回のWan 2.2は、その集大成として設計されており、オープンソース動画生成分野における新たな基準を打ち立てつつある。