MiniMaxは、混合注意力とMoEアーキテクチャを融合させた推理特化型大規模言語モデル「MiniMax-M1」を発表した。最大100万トークンの入力と業界最長の80kトークン出力に対応し、長文理解やツール操作能力でOpenAI o3やClaude 4 Opusを上回る性能を記録している。
モデル構造では、従来のTransformer構造から脱却し、線形注意力「Lightning Attention」とMoE構造を融合。新たな強化学習アルゴリズム「CISPO」は重要トークンを保持しつつ効率的な訓練を可能とし、ByteDanceのDAPOやDeepSeekのGRPOよりも高い訓練効率を示した。
モデルの訓練には512枚のH800 GPUを使用し、3週間で訓練を完了。訓練コストは53.47万ドルとされ、従来モデルと比較して圧倒的なコスト効率を達成している。GitHubでは推論コードと技術報告書を、Hugging Faceではモデル本体をオープンソースとして無償公開している。
デモサイト「chat.minimax.io」では、自然言語で迷路生成ゲームやタイピング速度測定Webアプリなどを生成可能。M1は今後のAIエージェントやソフトウェア開発支援などへの応用が期待されている。
MiniMaxは本モデル公開にあわせて「MiniMaxWeek」を開始し、今後5日間にわたり多モーダル分野(音声・視覚など)での技術発表を行う予定だ。製品ドリブン企業との見方も強い同社だが、今回のモデル開発により「モデル駆動型企業」としての実力を証明した。