【Python】リアルタイム音声認識｜PyAudioとWhisper徹底比較

記事のポイント

PyAudioとWhisperを活用し、Pythonでリアルタイム音声認識を実装する方法を紹介
SpeechRecognitionライブラリで音声認識、テキストデータ化、ファイル保存まで実行可能
Whisperライブラリは高精度で、リアルタイム翻訳や議事録作成に応用できる

はじめに

この記事では、Pythonでリアルタイム音声認識を実装する方法を解説します。PyAudioとWhisperという二つの主要なライブラリに焦点を当て、それぞれのインストールから実際のコード実装まで、具体的な手順を紹介します。

リアルタイム音声認識は、音声アシスタントや議事録作成ツールなど、多岐にわたる応用が可能です。この記事を通じて、Pythonでの音声認識技術の活用方法を理解し、実際のプロジェクトに応用できるようになることを目指します。

リアルタイム音声認識の基本とPyAudio

このセクションでは、リアルタイム音声認識の基本的な仕組みと、PythonのPyAudioライブラリを使用した音声入力について解説します。PyAudioを利用することで、マイクからリアルタイムに音声データを取得し、処理することが可能です。

PyAudioのインストールと環境設定

PyAudioは、Pythonでオーディオを扱うための強力なライブラリですが、インストールと環境設定にはいくつかの注意点があります。まず、Python 3.6以上のバージョンがインストールされていることを確認してください。

Windows環境では、PyAudioのインストールが特に複雑になることがあります。PyAudioの公式サイトから適切なバージョンのwheelファイルをダウンロードし、pip install ファイル名.whlコマンドでインストールします。

Macの場合は、Homebrewを使ってPortAudioをインストールした後、pip install pyaudioを実行します。

Linux環境では、apt-get install portaudio19-devを実行してからpip install pyaudioを実行します。

インストール後、PythonでPyAudioをインポートできるか確認し、エラーが発生する場合は、環境変数の設定や依存関係を確認してください。

もしNo module named '_portaudio'というエラーが発生した場合は、PortAudioが正しくインストールされているか確認してください。

また、PyAudioを使用する際には、マイクへのアクセス許可が必要になる場合があります。OSの設定で、Pythonがマイクにアクセスできるように設定してください。

PyAudioを使った音声録音の基本

PyAudioを使って音声録音を行うには、まずPyAudioオブジェクトを作成し、ストリームを開く必要があります。ストリームは、オーディオデータの流れを管理するためのもので、サンプリングレート、チャンネル数、データ形式などを指定します。

マイクから音声データを取得するには、ストリームのreadメソッドを使用します。このメソッドは、指定されたサイズのオーディオデータをバイト列として返します。

取得したオーディオデータは、NumPyなどのライブラリを使って数値データに変換し、処理することができます。

以下は、PyAudioを使った簡単な音声録音プログラムの例です。import pyaudioから始まり、pyaudio.PyAudio()でPyAudioオブジェクトを初期化します。

次に、pa.open()でストリームを開き、必要なパラメータ（format、channels、rate、input=True、frames_per_buffer）を設定します。

stream.read(chunk)で音声データを読み込み、stream.stop_stream()とstream.close()でストリームを閉じ、最後にpa.terminate()でPyAudioオブジェクトを終了します。

この基本的な構造を理解することで、リアルタイム音声認識のための基盤を構築できます。

AI・機械学習

Pythonで学ぶ音声ストリーミング技術｜実装方法と応用事例 | Hakky Handbook

Pythonを用いた音声ストリーミング技術を解説し、GCPとの連携方法を具体的に紹介します。記事を読むことで、音声データ処理の基礎を理解し、実践的なスキルを身につけることができます。音声ストリーミングの応用を学び、プロジェクトに活かしましょう。

SpeechRecognitionライブラリの活用

SpeechRecognitionライブラリは、Pythonで音声認識を行うための強力なツールであり、PyAudioと連携することで、リアルタイムでの音声認識が可能です。

SpeechRecognitionのインストールと設定

SpeechRecognitionライブラリを使用するには、まずインストールが必要です。pipコマンドを使って簡単にインストールできます。ターミナルまたはコマンドプロンプトを開き、以下のコマンドを実行してください。

pip install SpeechRecognition

インストールが完了したら、基本的な設定を行います。SpeechRecognitionは、Google Web Speech APIなどの複数の音声認識エンジンをサポートしています。Google Web Speech APIを使用する場合、APIキーは不要ですが、インターネット接続が必要です。他のAPIを使用する場合は、それぞれのAPIキーを取得し、設定する必要があります。例えば、IBM Watson Speech to Text APIを使用する場合は、IBM CloudでAPIキーを取得し、以下のように設定します。

import speech_recognition as sr

r = sr.Recognizer()
with sr.Microphone() as source:
    print("話してください")
    audio = r.listen(source)

try:
    text = r.recognize_google(audio, language='ja-JP')
    print("認識結果: {}".format(text))
except sr.UnknownValueError:
    print("Google Web Speech APIは音声を認識できませんでした")
except sr.RequestError as e:
    print("Google Web Speech APIへのリクエストに失敗しました; {0}".format(e))

このコードは、マイクから音声を取得し、Google Web Speech APIを使ってテキストに変換する基本的な例です。language='ja-JP'で日本語を指定しています。他の言語を使用する場合は、適切な言語コードを指定してください。

PyAudioとSpeechRecognitionの連携

PyAudioは、Pythonでオーディオ入出力を扱うためのライブラリです。SpeechRecognitionと連携することで、マイクからリアルタイムに音声データを取得し、それをSpeechRecognitionで認識することができます。まず、PyAudioをインストールします。環境によっては、追加の依存関係が必要になる場合があります。

pip install PyAudio

次に、PyAudioを使ってマイクから音声データを取得し、SpeechRecognitionに渡すコードを記述します。

import speech_recognition as sr
import pyaudio

r = sr.Recognizer()
mic = sr.Microphone()

with mic as source:
    r.adjust_for_ambient_noise(source)
    print("話してください")
    audio = r.listen(source)

try:
    text = r.recognize_google(audio, language='ja-JP')
    print("認識結果: {}".format(text))
except sr.UnknownValueError:
    print("Google Web Speech APIは音声を認識できませんでした")
except sr.RequestError as e:
    print("Google Web Speech APIへのリクエストに失敗しました; {0}".format(e))

このコードでは、sr.Microphone()を使ってマイクからの音声ストリームを取得し、r.listen(source)で音声データを読み込んでいます。r.adjust_for_ambient_noise(source)は、周囲の騒音レベルに合わせて認識精度を調整する機能です。認識されたテキストは、r.recognize_google(audio, language='ja-JP')で取得できます。

音声認識結果の表示と処理

SpeechRecognitionで認識されたテキストデータは、文字列として取得できます。このテキストデータを表示するだけでなく、さまざまな処理に活用できます。例えば、

特定のキーワードが含まれているかどうかをチェックしたり、
テキストデータをファイルに保存したり、
他のAPIに送信したりすることができます。

以下は、認識されたテキストデータをファイルに保存する例です。

import speech_recognition as sr

r = sr.Recognizer()
with sr.Microphone() as source:
    print("話してください")
    audio = r.listen(source)

try:
    text = r.recognize_google(audio, language='ja-JP')
    print("認識結果: {}".format(text))
    with open("output.txt", "w", encoding="utf-8") as f:
        f.write(text)
except sr.UnknownValueError:
    print("Google Web Speech APIは音声を認識できませんでした")
except sr.RequestError as e:
    print("Google Web Speech APIへのリクエストに失敗しました; {0}".format(e))

エラーハンドリングも重要です。sr.UnknownValueErrorは、音声が認識できなかった場合に発生する例外です。sr.RequestErrorは、APIリクエストが失敗した場合に発生する例外です。これらの例外を適切に処理することで、プログラムの安定性を高めることができます。認識精度を向上させるためには、

マイクの品質を上げたり、
周囲の騒音を減らしたり、
r.adjust_for_ambient_noise(source)を適切に使用したりすることが有効です。

AI・機械学習

Speech-to-Text APIを使った音声認識のチュートリアル | Hakky Handbook

Speech-to-Text APIを使った音声認識についてまとめたドキュメントです。

Whisperライブラリによる高精度音声認識

Whisperライブラリは、OpenAIが開発した高精度な音声認識ライブラリであり、リアルタイム音声認識において多くの利点を提供します。

Whisperのインストールとモデルの準備

Whisperライブラリを利用するためには、まずインストールと必要なモデルの準備が必要です。Whisperはpipコマンドを通じて簡単にインストールできます。以下のコマンドを実行して、Whisperをインストールしてください。

pip install git+https://github.com/openai/whisper.git

インストール後、音声認識に使用するモデルをダウンロードします。Whisperには複数のモデルサイズがあり、精度と処理速度が異なります。例えば、base、medium、large-v2などがあります。モデルをロードするには、以下のPythonコードを使用します。

import whisper

model = whisper.load_model("medium")

上記の例では、mediumサイズのモデルをロードしています。モデルの選択は、使用する環境や必要な精度に応じて調整してください。より高精度な認識が必要な場合はlarge-v2を、処理速度を優先する場合はbaseを選択すると良いでしょう。

また、GPUを使用する場合は、device引数に"cuda"を指定することで、高速な処理が可能です。モデルをロードする際には、十分なメモリがあることを確認してください。メモリ不足が発生する場合は、より小さいモデルを選択するか、GPUを使用することを検討してください。モデルの準備が完了したら、次のステップであるリアルタイム音声認識の実装に進みます。

Whisperを使ったリアルタイム音声認識の実装

Whisperライブラリを使用してリアルタイム音声認識を実装するには、マイクからの音声入力をリアルタイムで処理するプログラムが必要です。以下に、PyAudioと組み合わせてリアルタイムに音声認識を行う基本的な実装例を示します。

import whisper
import pyaudio

model = whisper.load_model("base")
pa = pyaudio.PyAudio()
stream = pa.open(
    format=pyaudio.paInt16,
    channels=1,
    rate=16000,
    input=True,
    frames_per_buffer=1024
)

print("Recording...")

while True:
    data = stream.read(1024)
    result = model.transcribe(data.decode('utf-8'))
    print(result"text")

このコードでは、まずwhisper.load_model()でモデルをロードし、pyaudio.PyAudio()でマイクからの入力を設定しています。whileループ内で、マイクから読み込んだデータをmodel.transcribe()に渡し、認識結果をリアルタイムで表示しています。WhisperProcessorとWhisperModelを使用する場合は、以下のように実装します。

from transformers import WhisperProcessor, WhisperModel
import speech_recognition as sr

processor = WhisperProcessor.from_pretrained("openai/whisper-base")
model = WhisperModel.from_pretrained("openai/whisper-base")

r = sr.Recognizer()
with sr.Microphone() as source:
    print("話して")
    audio = r.listen(source)
    text_result = whisper_codec.decode_text(
        processor(audio, return_tensors="np")
    )
    return text_result

この例では、WhisperProcessorで音声データを処理し、WhisperModelで認識を行っています。リアルタイム音声認識を行う際には、レイテンシー、処理負荷、ノイズ処理に注意が必要です。

Whisperの認識結果の活用

Whisperライブラリによる音声認識の結果は、さまざまな形で活用できます。最も基本的な活用法は、認識されたテキストデータをそのまま表示することです。これにより、リアルタイムでの文字起こしや、音声の内容をテキストで確認することができます。

さらに、認識されたテキストデータを処理することで、より高度な応用も可能です。例えば、認識されたテキストを翻訳APIに渡し、リアルタイムで多言語に翻訳することができます。また、会議や講演の内容を自動で文字起こしし、議事録作成ツールとして活用することも可能です。以下に、認識結果を活用する例をいくつか示します。

リアルタイム翻訳: 認識されたテキストを翻訳APIに渡し、多言語に翻訳する。
議事録作成: 会議や講演の内容を文字起こしし、議事録として保存する。
音声アシスタント: 音声コマンドを認識し、対応するアクションを実行する。
動画キャプション生成: 動画の音声を認識し、自動でキャプションを生成する。

これらの応用例は、Whisperライブラリの可能性のほんの一部です。認識結果をどのように活用するかは、アイデア次第で無限に広がります。例えば、感情分析APIと組み合わせることで、話者の感情をリアルタイムで分析し、より人間らしい対話システムを構築することも可能です。

AI・機械学習

Whisperとは | Hakky Handbook

本記事ではOpenAIから発表された音声認識モデルWhisperについて紹介します。

▶ Hakkyの機械学習プロダクト開発支援とは | 詳細はこちら

リアルタイム音声認識の最適化と応用

リアルタイム音声認識は、その速度と精度を最適化することで、音声アシスタントや議事録作成ツールなど、多岐にわたる分野での応用が可能です。

パフォーマンス最適化のテクニック

リアルタイム音声認識のパフォーマンスを最適化するには、いくつかの重要なテクニックがあります。まず、モデルの選択が重要です。処理速度と精度のバランスを考慮し、Whisperのような高性能モデルや、Voskのような軽量モデルを適切に選択します。

GPUを使用することで、リアルタイムトランスクリプションの処理速度を大幅に向上させることが可能です。Whisperを使用した実験では、GPUを使用した場合のレイテンシは30ms未満に短縮されます。

また、マイク入力の設定や音声処理の最適化も重要です。環境に合わせた適切な設定を行うことで、高品質な音声文字起こしを実現できます。モデルの言語設定を適切に行うことで、音声入力の正確性や処理速度を向上させることができます。

新しいモデルの導入やローカル環境に適したモデルの選択も、パフォーマンス最適化に繋がります。さらに、環境や要件に応じて、ハードウェアのアップグレードを検討することも有効です。これらのテクニックを組み合わせることで、Pythonでのリアルタイム音声認識のパフォーマンスを最大限に引き出すことができます。

音声アシスタントへの応用

リアルタイム音声認識は、音声アシスタントの開発において重要な役割を果たします。音声コマンドによるデバイスの操作や情報検索を可能にし、ユーザーエクスペリエンスを向上させます。

自然言語処理（NLP）との連携により、より複雑なタスクの実行や自然な対話が実現可能です。例えば、ユーザーが「明日の天気を教えて」と話しかけると、音声認識がこの言葉をテキストに変換し、NLPがその意図を解析します。

そして、天気情報APIからデータを取得し、音声合成によって結果をユーザーに伝えます。このようなシステムをPythonで構築する際には、SpeechRecognitionやtransformersライブラリが役立ちます。

これらのライブラリを使用することで、音声認識、自然言語処理、音声合成の各機能を統合し、高度な音声アシスタントを開発することができます。また、リアルタイム処理能力を高めるために、GPUの活用やモデルの最適化が不可欠です。

議事録作成ツールへの応用

リアルタイム音声認識は、議事録作成ツールへの応用において、大きな可能性を秘めています。自動文字起こし機能により、会議の内容をリアルタイムでテキスト化し、議事録作成の効率を飛躍的に向上させます。

さらに、発言者識別機能を追加することで、誰がどの発言をしたのかを正確に記録することが可能です。この機能を実現するためには、音声認識に加えて、話者認識技術を組み合わせる必要があります。

Pythonでは、pyAudioAnalysisなどのライブラリを利用して、話者の特徴を分析し、識別することができます。また、Whisperのような高精度な音声認識モデルを使用することで、騒がしい環境でも正確な文字起こしが可能です。

作成された議事録は、テキストデータとして保存され、後から編集や検索が容易に行えます。これにより、会議後の作業時間を大幅に削減し、より効率的な情報共有を実現することができます。

トラブルシューティングとFAQ

ここでは、Pythonでのリアルタイム音声認識でよく遭遇する問題点と、その解決策をFAQ形式でまとめました。

インストール時のエラー

PyAudio、SpeechRecognition、Whisperのインストール時に発生しやすいエラーと、その具体的な解決策を以下に示します。

まず、PyAudioのインストールでは、PortAudioライブラリが不足している場合にfatal error: 'portaudio.h' file not foundというエラーが発生することがあります。

この場合、Ubuntuではsudo apt-get install portaudio19-dev、Macではbrew install portaudioを実行し、PortAudioをインストールしてください。

次に、ERROR: Could not build wheels for pyaudioというエラーは、依存ライブラリの不足やbuildプロセスの失敗が原因です。

依存ライブラリをインストールするか、.whlファイルをダウンロードしてインストールを試みてください。

SpeechRecognitionのインストールでは、特に問題は少ないですが、pipのバージョンが古いとエラーが発生することがあります。

pip install --upgrade pipでpipを最新版に更新してから、再度インストールを試してください。

Whisperのインストールでは、transformersライブラリとのバージョン競合が起こることがあります。

pip install git+https://github.com/openai/whisper.git@main#egg=transformers==4.22.2を実行して、特定のバージョンを指定してインストールすることで、この問題を回避できます。

Microsoft Visual C++ Build Toolsの不足もインストール失敗の原因となるため、必要な場合はインストールしてください。

音声認識の精度が低い場合

音声認識の精度が低い場合、いくつかの要因が考えられます。

まず、環境ノイズの影響を軽減するために、静かな場所で録音を行うことが重要です。

窓を閉めたり、空調機器を停止したりすることで、ノイズを最小限に抑えることができます。

また、高品質なマイクを使用することも有効です。USBマイクなど、ノイズキャンセリング機能が搭載されたマイクを使用することで、よりクリアな音声を録音できます。

次に、音声認識ライブラリの設定を見直すことも重要です。

SpeechRecognitionライブラリでは、recognize_googleメソッドを使用する際に、languageパラメータを指定することで、認識精度を向上させることができます。

例えば、日本語の音声を認識する場合は、language='ja-JP'と指定します。

Whisperライブラリでは、モデルのサイズを変更することで、認識精度を調整できます。

openai/whisper-largeなど、より大きなモデルを使用することで、より高精度な認識が可能になります。

ただし、モデルサイズが大きいほど、処理に時間がかかるため、ハードウェアのスペックに合わせて適切なモデルを選択してください。

専門用語や固有名詞が認識されない場合は、カスタム辞書を作成し、登録することで認識精度を向上させることができます。

リアルタイム処理が遅延する場合

リアルタイム処理が遅延する場合、いくつかの改善策があります。

まず、ハードウェアのスペックが低い場合、処理速度がボトルネックになることがあります。

より高性能なCPUやGPUを搭載したPCを使用することで、処理速度を向上させることができます。

次に、音声認識ライブラリの設定を見直すことも重要です。

SpeechRecognitionライブラリでは、phrase_time_limitパラメータを設定することで、認識処理のタイムアウト時間を調整できます。

この値を小さくすることで、処理が遅延した場合でも、早期に結果を返すことができます。

Whisperライブラリでは、compute_typeパラメータを設定することで、計算に使用するデータ型を指定できます。

float16など、より低い精度で計算を行うことで、処理速度を向上させることができます。

また、音声データを分割して処理することも有効です。

音声データを短いセグメントに分割し、並列処理を行うことで、全体の処理時間を短縮できます。

さらに、不要な処理を削減することも重要です。

例えば、音声データのノイズ除去処理や、不要な特徴量抽出処理を省略することで、処理時間を短縮できます。

AI・機械学習

音声認識の前処理技術｜データサイエンティスト必見のスキル向上法 | Hakky Handbook

音声認識の前処理技術を解説し、ノイズ除去や正規化の具体例を紹介します。これにより、認識精度が約15%向上することが実証されています。記事を通じて、AIやデータ分析のスキル向上に役立つ情報を得てください。

〜ウェビナー告知【2025/06/19】〜

「データ・AI駆動で開発するプロダクト組織のあり方」をテーマに、理想のプロダクト組織のあり方、形成の勘所、そしてAI/データ駆動型組織への具体的な転換ステップをご紹介します。競争力のあるプロダクト開発を目指すなら、ぜひご参加ください！

ウェビナーテーマ：『データ・AI駆動で開発するプロダクト組織のあり方』
開催日時：2025年6月19日(木) 10:00~20:00
会場：オンライン開催（Zoom）

お問い合わせはこちらまで

おわりに

この記事では、Pythonでリアルタイム音声認識を行うためのPyAudioとWhisperライブラリの実装方法を解説しました。これらのライブラリを活用することで、音声認識技術を様々なプロジェクトに組み込むことが可能です。

もし、実装でお困りのことがあれば、Hakkyの機械学習プロダクト開発支援にご相談ください。お客様のニーズに合わせた最適なソリューションをご提案いたします。

お知らせ

最新のAI技術で、あなたのビジネスに革新をもたらしませんか？ Hakkyの機械学習プロダクト開発支援で、AIの可能性を最大限に引き出しましょう。

お問い合わせはこちら
資料請求はこちら

AI・機械学習

WhisperのFine-Tuningデモ | Hakky Handbook

本記事ではOpenAIのWhisperを使ったFine Tuningのデモをサンプルコードと共に紹介します。