南京大学、3D生成フレームワーク「Direct3D-S2」を発表──9倍高速・高解像度での学習を実現

出典: https://mp.weixin.qq.com/s/ENjrb1lracX-_b5qgMtrug

Direct3D-S2 イメージ
概要ポイント
  • Direct3D-S2は、空間稀疏性に最適化された3D拡散モデル。
  • 独自の空間稀疏注意(SSA)により、拡散推論で最大9.6倍高速化。
  • Sparse SDF VAEにより、入力・潜在・出力すべてが同一稀疏形式に。
  • 1024³解像度を8枚のA100でトレーニング可能。
  • Mesh生成品質でも現行SOTAを大幅に上回る性能を実証。
本文

南京大学の研究チームは、高解像度3D形状生成の計算ボトルネックを突破する新たなフレームワーク「Direct3D-S2」を発表した。この手法は、Sparse Signed Distance Function(SDF)ベースのボリューム構造と、画像条件付きの拡散モデルを統合し、3D生成における高速化と高精度化を同時に実現している。


構造の中核には独自開発の空間稀疏注意(Spatial Sparse Attention, SSA)があり、3D空間上でブロックごとに注意情報を効率抽出。局所・グローバル・選択的注意を動的に重み付けすることで、従来比最大9.6倍の高速な学習と3.9倍の推論速度を達成した。


Sparse SDF VAEは、入力・潜在表現・出力のすべてを統一フォーマットで保持可能とし、異種表現を組み合わせる従来手法と比べて学習安定性と生成精度を向上させた。これにより、従来32枚のA100 GPUを要していた256³解像度の学習を、わずか8枚で1024³まで拡張することに成功。


さらに生成されたMeshの品質もベンチマークで既存SOTAを上回っており、複雑な形状の再現性にも優れる。Direct3D-S2は、高速・高解像度・少GPUといったトレードオフを克服し、次世代の3D生成インフラとして注目されている。