Xiaomiは、数学的およびプログラミング的推論能力に特化したAIモデル「MiMo-7B(MiMo for Reasoning)」を発表し、モデル本体とその技術仕様を完全にオープンソースで公開した。MiMo-7Bは、AIME(数学推論)やLiveCodeBench(コード生成)といった評価ベンチマークにおいて、OpenAIのo1-miniやAlibabaのQwen-32Bといった既存の大規模モデルを凌駕するスコアを記録。7Bという比較的小規模なパラメータ数にもかかわらず、推論性能で先行モデルを上回った。
モデル性能の鍵となったのは、事前学習と後学習を連動させた訓練戦略。事前学習段階では、約200B tokensに及ぶ推論データセットを構築し、25T tokens分の3段階トレーニングで難易度を段階的に引き上げた。後学習では、報酬のスパース性を改善する「Test Difficulty Driven Reward」や、安定性を高める「Easy Data Re-Sampling」を導入。さらに、学習・検証速度を大幅に高める「Seamless Rollout」システムも実装され、強化学習の効率は最大2.29倍に達した。
Xiaomiは本モデルに関連するすべての技術仕様をGitHub上で公開しており、モデル本体もHuggingFace上で4種類(Base/Chat/RL/Chat-RL)として配布されている。MiMoはXiaomi内のAIモデル開発チームによる初の試みであり、同社は汎用人工知能(AGI)時代を見据え、推論性能の強化を継続していく方針を示している。