Li Auto(理想汽車)は、自動車企業ではなく人工知能企業であると公言し、AI技術の大規模導入を急速に進めている。特に自動運転領域では、毎週2回のペースでAI技術の更新を行い、自社システムの進化を加速させている。
今回発表された「MCAF(Multi-modal Coarse-to-fine Attention Framework、多モーダル映像焦点抽出フレームワーク)」は、自動運転における動画理解効率を劇的に向上させる新技術だ。Li Auto(理想汽車)のAD Max 3.0システムでは、毎日29億km以上の走行データを処理しており、その80%が動画データで占められる。しかし、従来技術では1時間あたり10万フレーム中わずか0.3%しか意思決定に関連せず、処理に膨大な算力とコストが必要だった。
MCAFは、人間のように「まずスキャンし、次に焦点を合わせる」方法を模倣し、99.7%の冗長フレームを素早く排除した後、重要シーンをミリ秒単位で詳細分析する。さらに自己反省メカニズムを備え、解析中に得た結果の信頼度をもとに注意力の再調整を行い、繰り返すごとにシステム精度が向上する設計となっている。加えて、Li Auto(理想汽車)が独自開発したMind GPT-3oやBEV大規模モデルとの互換性も確保されており、再学習を必要としない即時実装が可能だ。
ベンチマークテストでは、EgoSchema、Next-QA、IntentQAといった主要データセットにおいて、MCAFが従来技術を上回る成績を記録。特に長時間動画理解が求められるVideo-MMEデータセットでも高い応答精度を達成し、MCAFの有効性が証明された。自動運転領域におけるAI活用の新たなスタンダードとなる可能性が高い。