南京大学の研究チームは、高解像度3D形状生成の計算ボトルネックを突破する新たなフレームワーク「Direct3D-S2」を発表した。この手法は、Sparse Signed Distance Function(SDF)ベースのボリューム構造と、画像条件付きの拡散モデルを統合し、3D生成における高速化と高精度化を同時に実現している。
構造の中核には独自開発の空間稀疏注意(Spatial Sparse Attention, SSA)があり、3D空間上でブロックごとに注意情報を効率抽出。局所・グローバル・選択的注意を動的に重み付けすることで、従来比最大9.6倍の高速な学習と3.9倍の推論速度を達成した。
Sparse SDF VAEは、入力・潜在表現・出力のすべてを統一フォーマットで保持可能とし、異種表現を組み合わせる従来手法と比べて学習安定性と生成精度を向上させた。これにより、従来32枚のA100 GPUを要していた256³解像度の学習を、わずか8枚で1024³まで拡張することに成功。
さらに生成されたMeshの品質もベンチマークで既存SOTAを上回っており、複雑な形状の再現性にも優れる。Direct3D-S2は、高速・高解像度・少GPUといったトレードオフを克服し、次世代の3D生成インフラとして注目されている。