業界・業務から探す
導入目的・課題から探す
データ・AIについて学ぶ
News
Hakkyについて
ウェビナーコラム
◆トップ【ニュース】
世界最大のテクノロジー見本市CESが開幕、AI関連技術に注目アクセンチュア、生成AIスタジオを9カ国で設立‐専門産業に特化AIクールポコ。爆誕!TikTok上でAIクールポコ。と72時間会話を楽しめる「男は黙って、72時間餅つき!」配信大成功!被災者支援 AI相談サービスが無料公開生成AIの進化により、社員の必須スキルとなる―富士通・時田隆仁社長ロボットに生成AIを活用する方法プロ選手の技術を学べるAIアプリ体験【長崎】マイクロソフトとオープンAI、NYタイムズ提訴でタダ乗り問題が浮上NVIDIAとGetty Images、商用利用可能な画像生成AIサービスエヌビディア、新チップ発表でAI対応PC時代を主導他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説生成AIスポーツコンテスト2023でピザイチが最優秀賞を獲得生成AI活用のおすすめプロンプト3選フォルクスワーゲン、AI搭載カーにChatGPTを導入YOSHIKI、AI生成音楽の利用に警鐘元国会議員が開発したAIチャットボットが被災者支援に活躍AI研究家、分身AIを会議に参加させる実験を成功させる過去3ヶ月でAIトークンが3番目に高いリターンを記録=バイナンスMSとオープンAIの調査検討 資本業務提携巡り―EU欧州委NEC、ホテルの客室料金の最適金額を「AI」で自動算出するサービス、2月から本格運用へ、収益最大化に貢献NVIDIA、生成AIの処理7割高速化 パソコン用半導体を開発OpenAI、ニュース出版社に年間100万ドルから500万ドルを提示オープンAI、AIソフトのアプリストアを開設オープンAI、CNNやFOX、タイムと交渉中ChatGPTの「GPTs」で簡単にオリジナルアプリを作成、外部API連携も可能OpenAI、カスタムAIボットの「GPT Store」開店 収益化プログラムはQ1中に開始AIエンジニアの新コラム「AI×クリエイティブ 近くて遠い?その関係と新技術のこれから」がスタートAIを活用し音声のみで操作「rabbit r1」カッコいい筐体はTeenage Engineeringダイハツ工業、3人のAI活用から全社規模への成長を語るグーグル、AIの台頭で広告営業部門再編の懸念金融業界での生成AI導入の最新動向モバイルAI端末rabbit r1、アプリ操作を代行するコンシェルジュデバイスOpenAI、GPT Store開設で「SEOブログ記事自動生成」「AI検出回避に人間らしく加工」が人気にPC市場、24年は「AIパソコン」に期待
AI

執筆者:Hakky AI

他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説

ニュースの要点

info
3行まとめ
  • 「OpenVoice」は、短い音声クリップから参照話者の声を模倣し、異なる内容の音声を生成する声質クローニング技術。
  • OpenVoiceは感情、アクセント、リズム、イントネーションなど、声のスタイルを細かく制御できる。
  • OpenVoiceは大規模データセットを必要とせず、未知の言語においても声質クローニングを実現する。

ニュース詳細

最新の生成AI関連論文の中から、重要な論文をピックアップして解説する連載の第28回目では、音声AIに関する最新の技術について紹介します。その中でも注目すべきは、「OpenVoice」という音声クローニング技術です。この技術は、短い音声クリップから参照話者の声を模倣し、異なる内容の音声を生成することができます。さらに、感情やアクセント、リズム、イントネーションなど、声のスタイルを細かく制御することも可能です。

従来の手法とは異なり、OpenVoiceは声質クローニング後の声のスタイルを柔軟に操作できます。これにより、参照話者の声色だけでなく、それらの声のスタイルも自由に操ることができます。また、OpenVoiceは大規模データセットを必要とせず、未知の言語においても声質クローニングを実現することができます。これは、従来の手法がすべての言語に対して大規模なトレーニングデータを要求していたのとは対照的です。

OpenVoiceの技術的な仕組みは、「Base Speaker TTS Model」と「Tone Color Converter」の組み合わせです。Base Speaker TTS Modelは、声のスタイルと言語を制御する役割を持ち、声の特性を細かくカスタマイズすることができます。一方、Tone Color Converterは、参照話者の声色を模倣し、それを基本話者モデルの音声に適用する役割を果たします。声色を変換する過程で、元の音声のスタイル要素を保持します。

OpenVoiceの訓練プロセスでは、英語、中国語、日本語の話者を含む多言語データセットが使用されています。特にTone Color Converterは、2万人以上の個人から収集された30万以上のオーディオサンプルを用いてトレーニングされています。

出典

2025年06月14日に最終更新
読み込み中...