MiniMax、「MiniMax-M1」をオープンソース公開──混合注意力とMoE構造で推理特化、ClaudeやOpenAI超えも

出典:https://mp.weixin.qq.com/s/2IrQsOm64C-CpfRJgYR72Q

MiniMax image
概要ポイント
  • MiniMaxが世界初の混合注意力×MoE構造の推理特化型モデル「MiniMax-M1」を公開。
  • 最大80kトークンの出力、100万トークンの入力に対応し、ClaudeやOpenAI o3を上回る性能。
  • 新規強化学習アルゴリズム「CISPO」により効率的な学習と安定した出力を実現。
  • GitHubとHugging Faceでモデル・技術報告書・推論コードを無償提供。
  • デモサイト「chat.minimax.io」では自然言語からWebアプリなどを生成可能。
本文

MiniMaxは、混合注意力とMoEアーキテクチャを融合させた推理特化型大規模言語モデル「MiniMax-M1」を発表した。最大100万トークンの入力と業界最長の80kトークン出力に対応し、長文理解やツール操作能力でOpenAI o3やClaude 4 Opusを上回る性能を記録している。


モデル構造では、従来のTransformer構造から脱却し、線形注意力「Lightning Attention」とMoE構造を融合。新たな強化学習アルゴリズム「CISPO」は重要トークンを保持しつつ効率的な訓練を可能とし、ByteDanceのDAPOやDeepSeekのGRPOよりも高い訓練効率を示した。


モデルの訓練には512枚のH800 GPUを使用し、3週間で訓練を完了。訓練コストは53.47万ドルとされ、従来モデルと比較して圧倒的なコスト効率を達成している。GitHubでは推論コードと技術報告書を、Hugging Faceではモデル本体をオープンソースとして無償公開している。


デモサイト「chat.minimax.io」では、自然言語で迷路生成ゲームやタイピング速度測定Webアプリなどを生成可能。M1は今後のAIエージェントやソフトウェア開発支援などへの応用が期待されている。


MiniMaxは本モデル公開にあわせて「MiniMaxWeek」を開始し、今後5日間にわたり多モーダル分野(音声・視覚など)での技術発表を行う予定だ。製品ドリブン企業との見方も強い同社だが、今回のモデル開発により「モデル駆動型企業」としての実力を証明した。