業界・業務から探す
導入目的・課題から探す
データ・AIについて学ぶ
News
Hakkyについて
ウェビナーコラム
◆トップ【AI・機械学習】
プロセスの全体像前処理・特徴量生成Fine Tuning手法まとめ機械学習モデルの選び方モデル評価手法プロトタイピング探索的分析(EDA)
AI

執筆者:Handbook編集部

WhisperとPyannoteを用いた話者分離と音声認識

概要

本記事ではWhisperとPyannoteを使った話者分離と音声認識の方法をサンプルコードとともに紹介します。

2022年12月現在、Whisperで話者分離を行うことは難しく、Pyannoteで話者分離した音声に対してWhisperで音声認識を行う手法が主流となっています。本記事ではYoutube動画を上記方法で話者分離と音声認識にかけてみます。なお、本記事は動作環境としてGoogle Colabを想定しています。

音声ファイルの準備

はじめに音声ファイルを準備する必要があります。今回は冒頭で述べたとおり任意のYoutube動画をDownloadしてきて利用します。

from pathlib import Path
#@markdown #### **Youtube video**
video_url = "https://www.youtube.com/watch?v=V2RoqUr0qDU" #@param {type:"string"}
#store_audio = True #@param {type:"boolean"}
#@markdown
2025年06月15日に最終更新
読み込み中...