バイトダンス、多モーダルAI「BAGEL」をオープンソース公開──Qwen2.5-VL超え、GPT-4o級の推論性能

出典:https://mp.weixin.qq.com/s/OrEmFXxvMgsNhYF3aLd_KQ

BAGELモデルイメージ
概要ポイント
  • バイトダンスが多モーダル基盤モデル「BAGEL」をオープンソースで公開。
  • 画像・動画・Webを統合処理し、視覚理解はQwen2.5-VL超え、画像生成はSD3級。
  • 思考プロセスを明示できるChain-of-Thought形式に対応。
  • MoT構造により14B中7Bのみ活性化、軽量で汎用GPUでも実行可能。
  • GitHubとHugging Faceにてコードとモデルが利用可能。
本文

バイトダンスの研究チーム「Seed」は、多モーダルAI基盤モデル「BAGEL(BAsic GEnerative Learner)」をオープンソースとして発表した。BAGELはテキスト・画像・動画・Webなどを統合的に処理可能な設計で、高性能かつ軽量な構造が特徴。


学習にはテキスト、画像、動画、Webなど数兆トークン規模のデータを使用。視覚理解はQwen2.5-VLを超え、因果推論はInternVL-2.5を凌駕し、画像生成はStable Diffusion 3と同等。さらに、推論プロセスの可視化が可能なChain-of-Thought形式を採用し、複雑な問題に対しても中間ステップを明示できる。


アーキテクチャにはMoT(Mixture of Tokens)構造を採用し、総パラメータ14Bのうち7Bのみをアクティブに使用。これにより、通常のGPUでも高性能を維持したまま動作可能。すべてのモーダルを統一トークンスペースに直接マッピングすることで、モーダル間の自然な融合と推論が可能となっている。


応用分野は多岐にわたり、画像編集、マルチモーダルQA、動画未来予測、仮想空間ナビゲーション、3D再構築、視覚的推論などに対応。GitHubでは導入方法と推論ノートブックが提供され、Hugging Faceでは「BAGEL-7B-MoT」モデルが配布中。多モーダルAIのオープンソース標準として注目されている。