Xiaomiが初の推論特化型AIモデル「MiMo-7B」を公開──OpenAI・アリババ上位モデルを凌駕、技術仕様とモデル全種も完全公開

出典:https://mp.weixin.qq.com/s/Sx48m4tTTc6bJzMLU5scbQ

Xiaomi MiMo-7B
概要ポイント
  • Xiaomiが推論能力強化を目的とした初のAIモデル「MiMo-7B」を発表
  • AIMEやLiveCodeBenchで7B規模ながらOpenAI o1-miniやQwen-32Bを上回る
  • 事前学習と後学習の連携により推論能力を多層的に強化
  • Test Difficulty Driven Rewardなど独自RLアルゴリズムで訓練を最適化
  • GitHubで技術詳細を、HuggingFaceで4モデルを完全公開
本文

Xiaomiは、数学的およびプログラミング的推論能力に特化したAIモデル「MiMo-7B(MiMo for Reasoning)」を発表し、モデル本体とその技術仕様を完全にオープンソースで公開した。MiMo-7Bは、AIME(数学推論)やLiveCodeBench(コード生成)といった評価ベンチマークにおいて、OpenAIのo1-miniやAlibabaのQwen-32Bといった既存の大規模モデルを凌駕するスコアを記録。7Bという比較的小規模なパラメータ数にもかかわらず、推論性能で先行モデルを上回った。


モデル性能の鍵となったのは、事前学習と後学習を連動させた訓練戦略。事前学習段階では、約200B tokensに及ぶ推論データセットを構築し、25T tokens分の3段階トレーニングで難易度を段階的に引き上げた。後学習では、報酬のスパース性を改善する「Test Difficulty Driven Reward」や、安定性を高める「Easy Data Re-Sampling」を導入。さらに、学習・検証速度を大幅に高める「Seamless Rollout」システムも実装され、強化学習の効率は最大2.29倍に達した。


Xiaomiは本モデルに関連するすべての技術仕様をGitHub上で公開しており、モデル本体もHuggingFace上で4種類(Base/Chat/RL/Chat-RL)として配布されている。MiMoはXiaomi内のAIモデル開発チームによる初の試みであり、同社は汎用人工知能(AGI)時代を見据え、推論性能の強化を継続していく方針を示している。