他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説

ニュースの要点

3行まとめ

「OpenVoice」は、短い音声クリップから参照話者の声を模倣し、異なる内容の音声を生成する声質クローニング技術。
OpenVoiceは感情、アクセント、リズム、イントネーションなど、声のスタイルを細かく制御できる。
OpenVoiceは大規模データセットを必要とせず、未知の言語においても声質クローニングを実現する。

ニュース詳細

最新の生成AI関連論文の中から、重要な論文をピックアップして解説する連載の第28回目では、音声AIに関する最新の技術について紹介します。その中でも注目すべきは、「OpenVoice」という音声クローニング技術です。この技術は、短い音声クリップから参照話者の声を模倣し、異なる内容の音声を生成することができます。さらに、感情やアクセント、リズム、イントネーションなど、声のスタイルを細かく制御することも可能です。

従来の手法とは異なり、OpenVoiceは声質クローニング後の声のスタイルを柔軟に操作できます。これにより、参照話者の声色だけでなく、それらの声のスタイルも自由に操ることができます。また、OpenVoiceは大規模データセットを必要とせず、未知の言語においても声質クローニングを実現することができます。これは、従来の手法がすべての言語に対して大規模なトレーニングデータを要求していたのとは対照的です。

OpenVoiceの技術的な仕組みは、「Base Speaker TTS Model」と「Tone Color Converter」の組み合わせです。Base Speaker TTS Modelは、声のスタイルと言語を制御する役割を持ち、声の特性を細かくカスタマイズすることができます。一方、Tone Color Converterは、参照話者の声色を模倣し、それを基本話者モデルの音声に適用する役割を果たします。声色を変換する過程で、元の音声のスタイル要素を保持します。

OpenVoiceの訓練プロセスでは、英語、中国語、日本語の話者を含む多言語データセットが使用されています。特にTone Color Converterは、2万人以上の個人から収集された30万以上のオーディオサンプルを用いてトレーニングされています。

出典

他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説(生成AIウィークリー)(テクノエッジ) - Yahoo!ニュース