StepFun(階躍星辰)は、最新の画像編集向け大規模モデル「Step1X-Edit」を正式発表し、オープンソース公開した。総パラメータ数は19B(7BのMLLMと12BのDiT)で構成され、自然言語による柔軟かつ高精度な画像編集を可能にしている。Step1X-Editは、MLLM(Multimodal LLM)とDiffusionモデルを分離する革新的なアーキテクチャを採用し、自然言語理解と高保真な画像生成をそれぞれ専任化した。この構造により、複雑な指令の正確な解析と高品質な画像出力を両立し、従来のパイプライン型モデルに比べて指令解釈力と制御性が大幅に向上した。
編集可能なタスクは、文字置換、動作生成、スタイル変換、背景調整など11カテゴリーに及ぶ。特に、人物の顔、姿勢、身元特徴を忠実に維持しながら編集できる点が大きな特長であり、バーチャルヒューマン制作やEコマース用モデル写真、SNSプロフィール画像の改変など、高い一貫性が求められる用途に適している。また、画像内の指定領域に対して、材質や色彩を精密に編集できる高精度な局所制御も実現しており、スタイルの一貫性を損なわずに部分的な編集が可能となっている。
Step1X-Editのトレーニングには、約2000万件の画像とテキスト指令ペアから厳選した100万件超の高品質データセットが使用された。データは11種類の編集タスクに均等に分布しており、実際のユーザーリクエストに近い自然な言語指令に基づいて構成されている。モデル性能の検証には、自社開発の「GEdit-Bench」を採用。これは従来の人工タスクではなく、コミュニティから収集したリアルな編集要求に基づく基準であり、実用的な場面を強く意識した評価が行われている。
性能面では、Step1X-EditはGEdit-Benchにおける語義理解、画像品質、総合スコアのすべてで、既存のオープンソースモデルを大幅に上回った。特に、GPT-4oやGemini 2.0 Flashと並ぶレベルの精度とバランスを実現し、オープンソース画像編集分野における新たなベンチマークとなっている。自然言語で複雑な指示を伝えるだけで、画像の修正、置換、スタイル変更が精緻に反映される体験を提供している。
現在、Step1X-EditはGitHub、HuggingFace、ModelScopeにてソースコードおよびモデルファイルが公開され、誰でも利用可能となっている。具体的には、GitHubでソースコードとドキュメントが閲覧でき、HuggingFaceではクラウド上でモデルを即時体験できる。また、ModelScopeでも中国語圏向けに詳細情報が提供されている。さらに、技術レポート(arXiv)ではモデル設計思想やトレーニング方法、評価結果が詳細にまとめられている。
StepFunは公式サイト(stepfun.com)およびStepFun AppでもStep1X-Editの体験版を公開しており、スマートフォンからも自然言語による本格的な画像編集を手軽に試すことができる。今後、一般ユーザーだけでなく、クリエイター、eコマース、メディア業界など幅広い分野での活用が期待される。