Kimi、72Bのオープンソースモデル「Kimi‑Dev‑72B」でコード修正SOTAを更新──自己対話型学習+強化学習アーキテクチャで60.4%

出典:https://mp.weixin.qq.com/s/f6rZVucyUf47WGUwbLjXJA

Kimi-Dev-72B
概要ポイント
  • SWE‑bench Verifiedで60.4%を達成し、コード生成分野でオープンソースSOTAを更新。
  • Bug修正とテスト生成の二役構造を持ち、自律的な自己対話型学習による性能向上を実現。
  • Qwen 2.5‑72Bをベースに1,500億トークンの実データで中期訓練を実施。
  • 強化学習では結果依存報酬、高効率プロンプト、正例再学習を採用。
  • MITライセンスでGitHub/HuggingFaceにてコードとモデルを即日公開。
本文

Moonshot AIが発表したKimi‑Dev‑72Bは、72Bパラメータ規模のオープンソースコード生成モデルとして、SWE‑bench Verifiedで60.4%というスコアを記録し、オープンソースにおける新たなSOTAを樹立した。モデルとコードはMITライセンスでGitHubおよびHuggingFace上に即日公開され、量子化版も利用可能である。


Kimi‑Devは「BugFixer」と「TestWriter」という二役を内包し、自律的にバグ修正とテスト生成を行う自己対話型学習アーキテクチャを採用している。Qwen 2.5‑72Bを基礎モデルとし、約1,500億トークンにおよぶ高品質なGitHub issueやPRデータで中期訓練されている。


強化学習ではDocker実行結果による報酬設計(成功で1、失敗で0)を軸に、無効なプロンプトを排除した高効率訓練と、成功例の再学習による強化を実施。最大40のコード修正案とテスト案を生成できる精度を獲得している。


Moonshot AIは今後、IDEやCI/CD環境との統合を進め、より複雑なソフトウェア開発タスクへの応用展開を予定している。