Speech-to-Text APIを使った音声認識のチュートリアル

Speech-to-Text API には、同期認識、非同期認識、ストリーミング認識の 3 つの音声認識方法があります。

短い音声ファイル（1 分未満）をテキストに変換する場合は同期認識を利用し、長い音声ファイル（1 分以上）をテキストに変換する場合は非同期認識を利用します。マイクからの入力などリアルタイムにテキスト変換する場合はストリーミング認識を利用します。

この記事は、この 3 つの音声認識方法を使ってみた結果と感想について書いていきます

動作環境

実行環境は Google Colaboratry を使用しています。

音声認識の方法

事前準備としてサービスアカウントの作成及びこのアカウントに関連付ける秘密鍵が必要になります。

秘密鍵が用意できたら、Speech-to-Text API に必要なライブラリをインストールします。エラーが出た場合は、「RESTART RUNTIME」ボタンをクリックして、再度セルを実行してください。

!pip install --upgrade google-cloud-speech

次に、秘密鍵を読み込んで、準備が完了となります。

import os
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = api_key_path

同期認識

同期音声認識は、短い音声（60 秒未満）の音声認識リクエストを処理します。音声コンテンツは、ローカルファイルから Speech-to-Text に直接送信して認識することもできますし、Google Cloud Storage バケットに保存された音声コンテンツも処理することもできます。

以下を実行すれば、ローカルの音声コンテンツの認識結果が返されます。

from google.cloud import speech
import io
import wave

def transcribe_file(voice_file_path):

    # サンプリングレートを確認
    with wave.open(voice_file_path, 'rb') as f:
        fr = f.getframerate()

    # 音声ファイルの読み込み
    with io.open(voice_file_path, "rb") as audio_file:
        content = audio_file.read()

    audio = speech.RecognitionAudio(content=content)
    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=fr,
        language_code="ja-JP"
    )

    # APIの呼び出し
    client = speech.SpeechClient()
    response = client.recognize(config=config, audio=audio)

    for result in response.results:
        print(u"Transcript: {}".format(result.alternatives[0].transcript))

transcribe_file(voice_file_path)

短い音声の場合は、同期音声認識を使用したほうが早くて簡単です。

非同期認識

非同期音声認識は、長い音声（1 分以上 480 分未満）の音声認識リクエストを処理します。同期認識と異なり、非同期音声認識を使用して 60 秒を超える音声を文字変換するには、Google Cloud Storage バケットにデータを保存する必要があります。

以下を実行すれば、Google Cloud Storage バケットに保存したデータの認識結果が返されます。

import codecs
from google.cloud import speech

def transcribe_gcs(gcs_uri):

    client = speech.SpeechClient()
    audio = speech.RecognitionAudio(uri=gcs_uri)
    config = speech.RecognitionConfig(
          encoding = 'LINEAR16',
          sample_rate_hertz=44100,
          language_code="ja-JP",
          audio_channel_count = 2,
          enable_automatic_punctuation=True
    )

    operation = client.long_running_recognize(config=config, audio=audio)
    print("Waiting for operation to complete...")

    for result in response.results:
        print(u"Transcript: {}".format(result.alternatives[0].transcript))

# GCSの設定
bucketname = 'バケット名'
filename = 'ファイル名'
gcs_uri = 'gs://' + bucketname + '/' + filename
transcribe_gcs(gcs_uri)

ストリーミング認識

ストリーミング音声認識では、音声を Speech-to-Text にストリーミングし、音声を処理しながらリアルタイムでストリーム音声認識の結果を受信できます。

ローカルから実行する場合とマイクから直接実行する場合の 2 つのパターンがあるので、それぞれ紹介したいと思います。

ローカルファイルに対するストリーミング音声認識

ローカル音声ファイルに対して、ストリーミング音声認識を実行する場合は、API に送信されるすべてのストリーミングリクエストには 10 MB/60 秒の上限があることに注意してください。

def transcribe_streaming(stream_file):
    """Streams transcription of the given audio file."""
    import io
    from google.cloud import speech

    client = speech.SpeechClient()

    with io.open(stream_file, "rb") as audio_file:
        content = audio_file.read()

    # In practice, stream should be a generator yielding chunks of audio data.
    stream = [content]

    requests = (
        speech.StreamingRecognizeRequest(audio_content=chunk) for chunk in stream
    )

    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=16000,
        language_code="ja-JP",
    )

    streaming_config = speech.StreamingRecognitionConfig(config=config)

    responses = client.streaming_recognize(
        config=streaming_config,
        requests=requests,
    )

    for response in responses:
        for result in response.results:
            print("Finished: {}".format(result.is_final))
            print("Stability: {}".format(result.stability))
            alternatives = result.alternatives
            for alternative in alternatives:
                print("Confidence: {}".format(alternative.confidence))
                print(u"Transcript: {}".format(alternative.transcript))

transcribe_streaming(stream_file)

リアルタイムのストリーミング音声認識

ストリーミング音声認識は、マイクから受信した音声ストリームに対して認識も行うことができます。

from __future__ import division

import re
import sys

from google.cloud import speech

import pyaudio
from six.moves import queue

# Audio recording parameters
RATE = 16000
CHUNK = int(RATE / 10)  # 100ms

class MicrophoneStream(object):
    """Opens a recording stream as a generator yielding the audio chunks."""

    def __init__(self, rate, chunk):
        self._rate = rate
        self._chunk = chunk

        # Create a thread-safe buffer of audio data
        self._buff = queue.Queue()
        self.closed = True

    def __enter__(self):
        self._audio_interface = pyaudio.PyAudio()
        self._audio_stream = self._audio_interface.open(
            format=pyaudio.paInt16,
            # The API currently only supports 1-channel (mono) audio
            # https://goo.gl/z757pE
            channels=1,
            rate=self._rate,
            input=True,
            frames_per_buffer=self._chunk,
            # Run the audio stream asynchronously to fill the buffer object.
            # This is necessary so that the input device's buffer doesn't
            # overflow while the calling thread makes network requests, etc.
            stream_callback=self._fill_buffer,
        )

        self.closed = False

        return self

    def __exit__(self, type, value, traceback):
        self._audio_stream.stop_stream()
        self._audio_stream.close()
        self.closed = True
        # Signal the generator to terminate so that the client's
        # streaming_recognize method will not block the process termination.
        self._buff.put(None)
        self._audio_interface.terminate()

    def _fill_buffer(self, in_data, frame_count, time_info, status_flags):
        """Continuously collect data from the audio stream, into the buffer."""
        self._buff.put(in_data)
        return None, pyaudio.paContinue

    def generator(self):
        while not self.closed:
            # Use a blocking get() to ensure there's at least one chunk of
            # data, and stop iteration if the chunk is None, indicating the
            # end of the audio stream.
            chunk = self._buff.get()
            if chunk is None:
                return
            data = [chunk]

            # Now consume whatever other data's still buffered.
            while True:
                try:
                    chunk = self._buff.get(block=False)
                    if chunk is None:
                        return
                    data.append(chunk)
                except queue.Empty:
                    break

            yield b"".join(data)

def listen_print_loop(responses):

    num_chars_printed = 0
    for response in responses:
        if not response.results:
            continue

        overwrite_chars = " " * (num_chars_printed - len(transcript))

        if not result.is_final:
            sys.stdout.write(transcript + overwrite_chars + "\r")
            sys.stdout.flush()

            num_chars_printed = len(transcript)

        else:
            print(transcript + overwrite_chars)

            if re.search(r"\b(exit|quit)\b", transcript, re.I):
                print("Exiting..")
                break

            num_chars_printed = 0

def main():

    language_code = "ja-JP"  # a BCP-47 language tag

    client = speech.SpeechClient()
    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=RATE,
        language_code=language_code,
    )

    streaming_config = speech.StreamingRecognitionConfig(
        config=config, interim_results=True
    )

    with MicrophoneStream(RATE, CHUNK) as stream:
        audio_generator = stream.generator()
        requests = (
            speech.StreamingRecognizeRequest(audio_content=content)
            for content in audio_generator
        )

        responses = client.streaming_recognize(streaming_config, requests)
        listen_print_loop(responses)

if __name__ == "__main__":
    main()

音声認識の実行

今回は非同期認識で以下の二種類の音声コンテンツに対して認識を行いました。実行方法は前述しましたので、ここでは省きます。

文章の朗読

認識結果は次の通りです。

Transcript: 吾輩は猫である
Transcript: 名前はまだない
Transcript: どこで生れたかとんと見当がつかぬ
Transcript: 何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している
Transcript: 吾輩はここで始めて人間というものを見た

自然な会話

認識結果は以下の通りです。

Transcript: グループインタビューをやってなんかいろいろ話をしましたですの後にアイアンとか漫画実はこれ
Transcript: いけるんじゃないかみたいなことを
Transcript: 言い出してねちょっとまたその何日か前になったインタビューをやって日立にまたコンタクト城みたいな間抜けなこと言ってくるとかそういうのはありました

このように、朗読データは音声と内容がクリアに聞き取れるため、認識の精度がかなり良いです。一方で、自然会話データのほうの認識結果はおかしいな部分が多く、識別されていない内容も多かったです。

音声データの質が認識精度に影響したのではないかと考えています。実際に調べてみると、この記事では、音質について以下を言及しました。

## 精度に関係しないもの

- マイクの感度
- 話すスピード
- ノイズ

## 精度に関係するもの

- 話者の話し方（明瞭かどうか）
- 部屋の反響

また、この記事の中で、「ノイズ低減処理のあり/なし」、「音量調整処理のあり/なし」、「sample rate hertz : 16kHz/44kHz」の 3 項目が精度にどう影響するのかについて検証を行った結果、

ノイズ低減処理 → なし
音量調整処理 → あり
sample rate hertz → 16kHz

の組み合わせがもっとも良かったとのことでした。

結論として、精度に影響する要因は、「話者の話し方」、「部屋の反響」、「音量」の三つです。精度高い認識結果を得るために、音声データの前処理でこの 3 項目について工夫したほうがよさそうです。

なお、前処理のほかにも、公式ドキュメントのほうで音声適応により音声文字変換の出力を改善する方法を提示しています。この方法は特に次のような場合に役立ちます。

音声データで頻繁に使用される単語やフレーズの精度を改善する
音声データに一般的な言語ではほとんど使用されない単語（ドメイン固有の単語など）が含まれている
音声にノイズが含まれている場合や、鮮明でない場合

終わりに

以上、Speech-to-Text API を使用してわかったことをまとめました。参考になれば幸いです。