アリババのTongyi Labは、20Bパラメータの画像生成モデル「Qwen‑Image」をオープンソースで公開した。本モデルは、マルチモーダルDiT(MMDiT)アーキテクチャを採用し、複雑な文字レンダリングや精密な画像編集において従来の画像生成モデルを大きく上回る性能を示している。
Qwen‑Imageは、従来の拡散モデルでは困難だった長文プロンプト中の正確なテキスト生成を実現しており、ポスターやスライド資料など、文字情報を含むビジュアルコンテンツの自動生成に最適化されている。また、微細な領域の指定や複雑な編集指示にも対応し、画像内の要素を高精度でコントロール可能となった。
GitHub上で提供されるコードと技術ドキュメントによれば、Qwen‑Imageは大規模な事前学習に加え、合成画像データや多段階フィードバック学習を組み合わせて精度を向上させている。加えて、LoRAなどの軽量ファインチューニングに対応しており、企業や個人開発者が自社ユースケースに合わせてモデルを拡張できる柔軟性を持つ。
Qwen‑ImageはHugging FaceやModelScopeでも公開されており、Web UIを介して簡単に試用可能。技術レポートでは、同規模の既存モデルとの比較ベンチマークで、テキストレンダリング精度、画像編集タスク、生成スピードの全てで優位性を示した。特に、ポスター内のタイトル文字や複雑なフォントスタイルの再現では、従来のモデルに比べて大幅に改善している。
今回のオープンソース化は、AI画像生成の産業応用を加速させると見られており、広告、デザイン、資料作成、自動レイアウト生成など幅広い分野での活用が期待される。AIモデルの透明性向上や、開発者コミュニティとの協力を通じて、さらに進化が進むと考えられる。