アリババ「Wan2.2-S2V」公開──画像+音声から映画級のバーチャルヒューマンライブ生成

出典:https://mp.weixin.qq.com/s/GnfWVpk6EotfmbNTUPvuMg

Wan2.2-S2V
概要ポイント
  • 画像と音声から映画級のバーチャルヒューマンライブを生成可能。
  • 表情や動作を音声と高精度に同期。
  • テキスト入力で動作や背景を制御可能。
  • 長尺動画生成を支える階層型フレーム圧縮技術を採用。
  • モデルをオープンソース公開、Hugging FaceやModelScopeで利用可能。
本文

アリババのTongyi Labは、新たなマルチモーダル動画生成モデル「Wan2.2-S2V」をオープンソースで公開した。このモデルは、1枚の静止画像と1本の音声から自然な表情や滑らかな動作を伴う映画級のバーチャルヒューマンライブを生成できる。人物だけでなく、アニメキャラクターや動物など多様な対象を扱うことが可能で、ポートレートから全身画像まで幅広く対応する。さらに、テキスト入力によるプロンプト制御にも対応し、主体の動作や背景変化を柔軟に生成できる点も特徴だ。


技術面では、音声駆動による細かな動作制御とテキスト誘導による全体的な運動制御を組み合わせ、より精密な映像表現を実現。AdaINやCrossAttentionによる制御メカニズムにより、音声との同期精度も高めている。長尺動画生成に向けては、階層化されたフレーム圧縮技術を導入し、参照フレームを最大73フレームまで拡張することで安定性を確保した。さらに60万以上の音声・動画データセットを用いた大規模学習や、多分解能トレーニングにより縦型短編から横型ドラマ映像まで対応できる汎用性を備える。


Wanは今年2月以降、テキスト生成動画や画像生成動画、編集機能、音声駆動型動画など複数のモデルを相次いで公開し、累計ダウンロード数は2000万を超えた。今回のWan2.2-S2VもHugging FaceやModelScope、GitHubで公開され、アリババのAPIサービスや公式サイトから直接利用可能だ。今後はバーチャルヒューマンライブ配信、映像制作、教育分野などでの活用が期待される。