バイトダンスの研究チーム「Seed」は、多モーダルAI基盤モデル「BAGEL(BAsic GEnerative Learner)」をオープンソースとして発表した。BAGELはテキスト・画像・動画・Webなどを統合的に処理可能な設計で、高性能かつ軽量な構造が特徴。
学習にはテキスト、画像、動画、Webなど数兆トークン規模のデータを使用。視覚理解はQwen2.5-VLを超え、因果推論はInternVL-2.5を凌駕し、画像生成はStable Diffusion 3と同等。さらに、推論プロセスの可視化が可能なChain-of-Thought形式を採用し、複雑な問題に対しても中間ステップを明示できる。
アーキテクチャにはMoT(Mixture of Tokens)構造を採用し、総パラメータ14Bのうち7Bのみをアクティブに使用。これにより、通常のGPUでも高性能を維持したまま動作可能。すべてのモーダルを統一トークンスペースに直接マッピングすることで、モーダル間の自然な融合と推論が可能となっている。
応用分野は多岐にわたり、画像編集、マルチモーダルQA、動画未来予測、仮想空間ナビゲーション、3D再構築、視覚的推論などに対応。GitHubでは導入方法と推論ノートブックが提供され、Hugging Faceでは「BAGEL-7B-MoT」モデルが配布中。多モーダルAIのオープンソース標準として注目されている。