音響テクノロジーシリーズ 24 機械学習による音声認識

音響テクノロジーシリーズ 24

機械学習による音声認識

日本音響学会編
久保陽太郎 Google, Research Scientist 博士（工学）著

人間を超える精度の音声認識をするために，最新の機械学習技術を学ぶテキストである。

ジャンル

発行年月日: 2021/05/06

判型: A5 上製

ページ数: 324ページ

ISBN: 978-4-339-01139-5

在庫あり

2営業日以内に出荷致します。

定価

5,280円(本体4,800円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
著者紹介
広告掲載情報

音声認識は夢のテクノロジーである。人の言葉を聞き取り理解する技術は，人間の真のパートナーとなるべき機械もしくはロボットを実現する鍵となる技術である。スマートスピーカーやスマートフォンのような製品とともに，急速に一般化しつつある音声認識であるが，人々の要求はいまも高度化し続けている。音声認識が身近になることで，「どのような状況で」「だれが」「どのようなことを」話しても認識できるようになることの重要性が，これまでより高まってきている。また，ほぼ人間と同精度での認識が可能になった現在，人間を超える認識精度への期待も高まりつつある。本書は，そのような期待に応えうる未来の技術を切り拓くために，必要な基礎知識を学ぶためのテキストである。

本書の特色として，有限状態トランスデューサと機械学習の関わりについて，広く解説している点がある。音声認識は機械学習の典型的な応用例の一つであるが，そのシステムの複雑性は他の機械学習技術と一線を画する。本書では，複雑なシステムを有限状態トランスデューサを用いて解説する。有限状態トランスデューサは複雑なシステムを簡潔に記述するための便利な概念であるのみではなく，今日の多くの音声認識ソフトウェアの実装において，基本構成要素として利用されており，今後ともに重要な基礎技術である。

本書の主たる想定読者は，音声認識の分野に携わる技術者，研究者，およびこの分野の研究を始めようとする学生である。近年のこの分野の急速な発展を鑑みるに，書籍という媒体で日々更新され続ける最先端をなぞるのは得策ではない。本書は，本書を手に取った読者が，論文やウェブなどによって最新の情報に触れる際，それらの理解をより深めることができるようにと執筆されたものである。近い将来，本書の読者と，より新しい技術について議論するのが楽しみである。

音声認識は夢のテクノロジーである。人の言葉を聞き取り理解する技術は，人間の真のパートナーとなるべき機械もしくはロボットを実現する鍵となる技術である。

音声認識には，「人の音声をテキストに変換する」という大まかな定義があるが，入力となる音声や出力となるテキストの多様性から，問題のスコープを正確に特定することが難しい。初期の音声認識は，特定の話者の音声に限って，コマンド発話（「はい」か「いいえ」かなど）のみを認識できる程度の単純なものであった。また，そのような単純な機能であっても，その実現には当時の技術の粋を結集しなければならなかった。音声認識は，つねに人間と比べられるという性質から，その可用性について厳しい目で見られ続け，「未完成」であると過小評価されやすい技術であった。

翻って現在，スマートスピーカやスマートフォンのような製品とともに，音声認識を利用した情報家電が人々の暮らしの中に取り込まれつつある。これまでも音声認識を利用した製品やサービスは多く存在したが，最新の機械学習技術を用いて，より高い精度が達成されたことにより，音声認識はこれまで以上に身近になった。音声認識はついに，これまでの厳しい評価から抜け出しつつあるように見える。

このように急速に一般化しつつある音声認識であるが，人々の要求はいまも高度化し続けている。音声認識が身近になることで，「どのような状況で」「だれが」「どのようなことを」話しても認識できるようになることの重要性が，これまでより高まってきている。また，ほぼ人間と同精度での認識が可能になった現在，人間を超える認識精度への期待も高まりつつある。本書は，そのような期待に応えうる未来の技術を切り拓くために，必要な知識を学ぶためのテキストである。

本書の主たる想定読者は，この分野に携わる技術者，研究者，およびこの分野の研究を始めようとする学生である。「この分野」の示すところは，なるべく広い範囲にわたるように留意した。例えば，音楽の情報処理は，音響信号の意味論を分析するという点で，多分に音声認識と重なり合う。また，音声認識は，音声を入力とする自然言語生成技術の1つであると考えることもできる。映像の理解に関して，音声トラックの認識に音声認識が直接利用される場合もあれば，音声認識の技術を拡張して，映像信号のテキスト化を行うといったような，より本質的な拡張もありうる。音声認識研究がさまざまな分野の基礎技術の上に成り立っているのと同様に，その果実である音声認識技術もさまざまな応用領域において利用可能であると信じている。

本書の執筆にあたって，さまざまな研究者から貴重な意見をいただいた。中村篤教授（名古屋市立大学），堀貴明博士（Mitsubishi Electric Research Laboratories）に謝意を示したい。著者が所属するGoogle合同会社の同僚からも，さまざまな意見を頂戴した。大西翼博士，苅田成樹氏に謝意を示したい。加えて，本書を書くきっかけをくださった大川茂樹教授（千葉工業大学）に改めて謝意を表したい。

2021年3月
久保陽太郎

1．本書の目的と事前知識
1.1　本書の目的
1.2　本書の構成
1.3　本書で用いる数式の表記
1.4　確率論の基礎
　1.4.1　周辺化
　1.4.2　条件付き確率
　1.4.3　独立性
　1.4.4　連続分布と確率密度関数

2．機械学習による予測
2.1　モデルによる予測
2.2　識別関数の構成
2.3　確率モデルの学習
2.4　最適化のアルゴリズム
　2.4.1　凸関数の最適化
　2.4.2　指数型分布族の最尤推定
　2.4.3　潜在変数モデルとEMアルゴリズム
　2.4.4　勾配に基づく局所最適化
2.5　例：身長と体重から学年を推定する
　2.5.1　生成モデルによるアプローチ
　2.5.2　識別モデルによるアプローチ
　2.5.3　識別関数法によるアプローチ
2.6　深層学習
　2.6.1　識別モデルの構成とソフトマックス層
　2.6.2　確率的勾配降下法
2.7　モデル選択と過学習
　2.7.1　過学習
　2.7.2　交差検証
　2.7.3　正則化
　2.7.4　アーリーストッピング
引用・参考文献

3．有限状態トランスデューサ
3.1　有限状態オートマトン
3.2　文法と辞書の表現
　3.2.1　重みの導入
　3.2.2　トランスデューサの導入
3.3　有限状態トランスデューサの数学的定義
　3.3.1　半環
　3.3.2　状態集合Qと状態遷移集合E
　3.3.3　初期状態Iと終了状態F
　3.3.4　遷移パスと重み
　3.3.5　FSTの等価性
　3.3.6　対数確率半環とFSTの確率的解釈
　3.3.7　FSTの連結，クリーネ閉包，和
3.4　合成
　3.4.1　合成演算のアルゴリズム
　3.4.2　合成演算の確率的解釈
　3.4.3　アルファベット列のFSTによる表現と合成演算
3.5　最短経路問題
3.6　FSTの最適化
　3.6.1　トリミング
　3.6.2　ε除去
　3.6.3　重みとラベルのプッシング
　3.6.4　決定化
　3.6.5　最小化
3.7　対数確率半環の重みを持つ非巡回FST上の期待値計算
　3.7.1　非巡回FSAのトポロジカルソート
　3.7.2　期待値計算
引用・参考文献

4．音声認識システム
4.1　音声認識システムの構成
4.2　音声の単位
　4.2.1　音素を介した音声認識の生成モデル
　4.2.2　発音辞書モデル
4.3　音声の分析
　4.3.1　音声信号のモデル
　4.3.2　離散フーリエ変換と周波数解析
　4.3.3　フィルタバンク処理
　4.3.4　ケプストラム抽出と無相関化
　4.3.5　対数エネルギー
　4.3.6　セグメント分析
4.4　音声認識システムの評価法
　4.4.1　認識精度の評価
　4.4.2　計算効率の評価
引用・参考文献

5．音響モデル
5.1　隠れマルコフモデル
　5.1.1　雨と水音のモデル
　5.1.2　複数のHMM状態を持つモデル
　5.1.3　雨の推定から音声認識へ
5.2　混合正規分布と連続分布型HMM
5.3　音素文脈依存モデル
　5.3.1　決定木による音素文脈クラスタリング
　5.3.2　決定木を用いた音響モデルのFSTによる表現
　5.3.3　凝集型クラスタリングによる質問の自動生成
5.4　ニューラルネットによる音響モデル
　5.4.1　再帰結合ニューラルネット
　5.4.2　ゲートユニットと長短期記憶
5.5　系列識別学習
　5.5.1　系列識別学習規準
　5.5.2　認識仮説を用いた最適化アルゴリズム
5.6　音響モデル適応の技術
　5.6.1　声道長正規化による適応
　5.6.2　話者コードの入力による適応
　5.6.3　再学習による適応
引用・参考文献

6．言語モデル
6.1　言語モデルとは
6.2　ユニグラム言語モデルとBag-of-words
6.3　Nグラム言語モデル
6.4　Nグラム言語モデルの学習と平滑化
　6.4.1　Nグラム言語モデルの最尤推定
　6.4.2　加算平滑化
　6.4.3　線形補間平滑化
　6.4.4　ウィトン・ベル平滑化
　6.4.5　グッド・チューリング推定法
　6.4.6　カッツ平滑化
　6.4.7　絶対割引法
　6.4.8　クニーザー・ナイ平滑化
6.5　Nグラム言語モデルのFSTによる表現
6.6　最大エントロピーモデルと識別的言語モデル
　6.6.1　最大エントロピー原理に基づく言語モデル
　6.6.2　文レベルの最大エントロピーモデル
　6.6.3　音声認識のための識別的言語モデル
6.7　ニューラルネット言語モデル
　6.7.1　ニューラルネットによる後続単語の予測
　6.7.2　単語の分散表現
　6.7.3　ニューラルネット言語モデルによるリスコアリング
引用・参考文献

7．大語彙連続音声認識
7.1　FSTの合成と確率モデル
　7.1.1　デコーディングネットワークの構成と探索誤り
　7.1.2　非曖昧化シンボル
7.2　大語彙連続音声認識の探索問題
7.3　大規模FST合成の技術
　7.3.1　オンザフライ合成
　7.3.2　ディスクベース認識システム
7.4　Nベストリストおよびラティスの生成
　7.4.1　ラティスの生成
　7.4.2　ラティスからのNベストリストの生成
引用・参考文献

8．深層学習の発展
8.1　さまざまなニューラルネット要素
　8.1.1　飽和しない活性化関数
　8.1.2　ドロップアウト
　8.1.3　バッチ正規化
　8.1.4　畳み込み層/プーリング層
8.2　ニューラルネットの高速化
　8.2.1　重みの量子化
　8.2.2　特異値分解による重み行列の圧縮
　8.2.3　蒸留によるモデル変換
8.3　End-to-end音声認識
　8.3.1　CTC
　8.3.2　エンコーダ－デコーダ型End-to-end音声認識
引用・参考文献

索引

久保陽太郎（クボヨウタロウ）

Research Scientist, Google

2010年早稲田大学基幹理工学研究科情報理工学専攻博士課程修了，博士（工学）
同年 RWTHアーヘン工科大学客員研究員
同年 NTTコミュニケーション科学基礎研究所（CS研）研究員
2014年 Speech Scientist, Amazon
2018年 Research Scientist, Google

機械学習そのものだけではなく，音声認識システムなどのように日々複雑化する機械学習のシステムをどのようにスケーラブルに構成するかにも興味があります。