業界・業務から探す▼

導入目的・課題から探す

データ・AIについて学ぶ▼

Hakkyについて▼

ウェビナーコラム

◆トップ【AI・機械学習】

プロセスの全体像前処理・特徴量生成 Fine Tuning手法まとめ機械学習モデルの選び方モデル評価手法プロトタイピング探索的分析（EDA)

音声データの感情分析ができるAPIについての調査音声処理を行うとき音量を調整する方法 SOX と PySOX による音声処理 Pyannote.audio の仕組み

Faster Whisperで文字起こしおよび単語レベルのtimestamp OpenAI Whisper の利用方法 RunPod Whisper APIの利用方法 Whisperとは Whisperで単語レベルのtimestamp CommonVoiceデータセットでWhisperをFine Tuning　WhisperのFine-Tuningの比較 WhisperのFine-Tuningデモ辞書登録 Whisperを使ったOpenSourceプロジェクト WhisperとPyannoteを用いた話者分離と音声認識 Whisperを用いた音声認識の文字起こし精度

執筆者：Handbook編集部

WhisperとPyannoteを用いた話者分離と音声認識

概要

本記事ではWhisperとPyannoteを使った話者分離と音声認識の方法をサンプルコードとともに紹介します。

2022年12月現在、Whisperで話者分離を行うことは難しく、Pyannoteで話者分離した音声に対してWhisperで音声認識を行う手法が主流となっています。本記事ではYoutube動画を上記方法で話者分離と音声認識にかけてみます。なお、本記事は動作環境としてGoogle Colabを想定しています。

音声ファイルの準備

はじめに音声ファイルを準備する必要があります。今回は冒頭で述べたとおり任意のYoutube動画をDownloadしてきて利用します。

from pathlib import Path
#@markdown #### **Youtube video**
video_url = "https://www.youtube.com/watch?v=V2RoqUr0qDU" #@param {type:"string"}
#store_audio = True #@param {type:"boolean"}
#@markdown

2025年06月15日に最終更新

読み込み中...

資料請求

Hakkyの案件事例や提供するソリューションを確認する

メールマガジン

データ・AIに関するHakky独自の考察を受け取る

お問い合わせ

AIプロダクトやデータ活用のお悩みをHakkyに無料相談する