CosyVoice、5言語対応の音声生成AIを公開──ゼロショット音声クローンや指令式音声制御など全機能を網羅

出典:https://mp.weixin.qq.com/s/NO6taJhYZGws1HggJx0GWA

CosyVoice Project Image
概要ポイント
  • CosyVoiceは推論・学習・デプロイを含む音声生成の全機能を提供するオープンソースAI。
  • わずか3秒の音声で音色を再現できるゼロショット音声クローンを搭載。
  • 中国語・英語・日本語・韓国語・広東語の5言語に対応。
  • 音声に感情や方言を加えられる指令式の生成コントロールが可能。
  • 軽量設計でローカル動作にも対応、商用TTSに比べ最大90%のコスト削減。
本文

アリババのTongyi Lab(通義実験室)が開発した「CosyVoice」は、GitHubで13.5K以上のスターを集めているオープンソースの音声生成プロジェクトである。本プロジェクトは、推論・学習・デプロイまでを一貫して提供する「音声生成の全機能を網羅した」設計を特徴としており、開発者にとって実用性が高い。


CosyVoiceは中国語、英語、日本語、韓国語、広東語の5言語に対応し、3秒の参考音声から個人の音色を再現するゼロショット音声クローンや、任意の言語で自然に発話させるクロスリンガル合成機能を搭載。さらに「〜の感情で」「〜の方言で」といった自然言語の指令で音声表現を制御でき、細やかな感情ラベルも利用可能。リアルタイムでの音声生成は遅延500ms以下を実現しており、動画配信やスマートデバイスに即時適用できる。


技術的には、CosyVoiceは300Mパラメータのモデルで構成され、PyTorchとTensorRTに対応。最小4GBのGPUメモリで動作し、Docker+FastAPIまたはgRPCによるスムーズなデプロイも可能。QPS(秒間処理リクエスト数)20超、RTF(Real-Time Factor)0.2未満という性能を実現している。


GitHubリポジトリでは、モデルのクローンからデモUI起動、API実装までを3ステップで案内。`CosyVoice-300M`モデルは事前学習済みで即利用可能となっており、CLI・Web UI・Python APIを通じてTTSや音声変換の導入が容易に行える。Coqui TTSやMozilla TTSといった他プロジェクトとの比較では、「指令ベースの細粒度制御」「軽量運用」「ローカル完結型設計」において明確な優位性を持つ。


主な活用シーンには、自動配音、自作教材、ゲームキャラクターの音声作成、家庭用デバイスとの音声インタラクション、俳優音声の修復・差し替えなどが想定されており、コストを抑えつつ多言語・個性化された音声生成を求める開発者にとって有力な選択肢となっている。