音響学講座 7 音声（下）

音響学講座 7

音声（下）

日本音響学会編
岩野公司東京都市大教授博士（工学）編著
河原達也京大教授博士（工学）著
篠田浩一東工大教授博士（工学）著
伊藤彰則東北大教授工博著
増村亮 NTTコンピュータ&データサイエンス研究所博士（工学）著
小川哲司早大教授博士（工学）著
駒谷和範阪大教授博士（情報学）著

音声認識，話者認識，音声対話システムなどの音声の理解を取り扱い，深層学習にもふれる。

ジャンル

発行年月日: 2023/01/10

判型: A5

ページ数: 208ページ

ISBN: 978-4-339-01367-2

在庫あり

2営業日以内に出荷致します。

定価

3,410円(本体3,100円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
著者紹介
広告掲載情報

上巻では音声の生成を取り扱ったのに対し，下巻では音声認識，話者認識，音声対話システムなどの音声の理解を取り扱う。Web検索や質問応答システム，対話型ロボットなどがその成果物である。これらとの関りで深層学習にもふれる。

本書の前のシリーズに当たる音響工学講座「音声」は，中田和男先生（東京農工大学名誉教授）が1977年に初版を著され，その約20年後に改訂版が発行されている。改訂版で中田先生は，その20年間の「音声研究の驚くほどの発展，進歩」を語られている。「HMMによる音声認識」といった新技術の他，「音声の研究から音声言語の研究へ」というシフトチェンジをキーワードとして挙げられていたことが印象的である。現在は，その改訂版の発行から，さらに20年以上が経過したことになる。その間，音声研究は，まさに「言語表現としての音声」を扱う研究としてさらに大きな発展を遂げ，さまざまな実用システムの創出にまで漕ぎ着けている。

当時は1冊で構成されていた「音声」であったが，研究領域が大きく広がり，専門分野が細分化したため，本音響学講座では「音声（上）」，「音声（下）」の2冊に分け，「音声（上）」では，音声の分析・合成といった，いわば音声の「生成寄り」の内容を，本巻「音声（下）」では，音声認識などの，いわば音声の「理解寄り」の内容を取り扱うこととなった。

一口に「音声の理解」といっても，その内容は多岐にわたる。音声から感じ取れる発言者の感情の認識や，その発言の意図の理解など，本来はさまざまなレベルの理解が存在するが，本書では，現時点で実社会に大きく影響を与えている，「音声認識」，「話者認識」，「音声対話システム」を対象とすることにした。例えば，「音声認識」，「音声対話システム」に関する技術は，音声入力によるWeb検索や質問応答に基づくアシスタントシステム，対話型ロボットなど，身近な製品の実現に貢献している。また，「話者認識」の技術は，特に個人認証の一手法として，商用化が着実に進められている。本書ではこれらの技術に関して，基本的・不変的な内容を扱うこととした。

一方で，これらの技術の進歩は目覚ましく，ある程度学説的に固まった内容を扱うことが求められている本書で，最新の内容をどこまで扱うかは判断に迷うところであった。特に音声認識・話者認識の分野では，近年，深層学習（deep learning）の導入によるブレイクスルーが訪れ，認識性能が飛躍的に向上した。

深層学習に基づくさまざまな技術をどこまで扱うかについては，本書の編集期間中にも大きな技術発展が見られたため，変更や追記が伴う悩ましい検討事項となったが，将来にわたって利用されていると思われる内容や概念を優先して扱うように心掛けた。

以上のような背景の下，まず1章において音声認識の歴史や基本的な考え方を扱った上で，音声認識の重要な要素である音響モデルと言語モデルの詳細を，2章，3章でそれぞれ解説する。その上で，それぞれの章の後半において，深層学習の利用に関してふれることとした。その後，4章で話者認識，5章で音声対話システムにおける理論と標準的な手法についての解説を行う。内容が多岐にわたっているため，それぞれの章について第一線で活躍されている方々に執筆を依頼させていただいた。

執筆者の皆様には，本書執筆のご快諾をいただき，また，各章について丁寧で素晴らしい解説をいただけたことに，心より感謝を申し上げる。また，本書の編集・出版にあたって，お世話になった日本音響学会音響学講座編集委員会の皆様，コロナ社の皆様に，厚く御礼を申し上げる。

執筆分担は以下のとおりである。
• 河原達也　1章　• 篠田浩一　2章
• 伊藤彰則　3章　• 増村亮　3章
• 小川哲司　4章　• 駒谷和範　5章

2022年11月
岩野公司

1．音声認識
1.1　音声認識の概要
　1.1.1　音声認識研究の歴史
　1.1.2　音声認識の仕様の分類
　1.1.3　音声認識の応用の展開
1.2　音声認識の原理
　1.2.1　音声認識の定式化
　1.2.2　統計的言語モデルによる尤度計算
　1.2.3　統計的音響モデルによる尤度計算
1.3　音声認識のための特徴量
　1.3.1　メルフィルタバンクとMFCC
　1.3.2　スプライシングとデルタパラメータ
　1.3.3　特徴量の統計的変換
　1.3.4　特徴量の正規化
1.4　音声認識システムの構成
　1.4.1　音声認識システムの動作方式による分類
　1.4.2　言語モデルの種類による分類
　1.4.3　大語彙連続音声認識エンジン
　1.4.4　重み付き有限状態トランスデューサ（WFST）
　1.4.5　End-to-End音声認識
1.5　音声認識結果の扱い
　1.5.1　音声認識結果の評価尺度
　1.5.2　音声認識結果の複数候補の表現
　1.5.3　音声認識結果の信頼度尺度
　1.5.4　複数の音声認識システムの結果の統合
引用・参考文献

2．音響モデルとその高度化
2.1　音響モデル
　2.1.1　マルコフ過程
　2.1.2　隠れマルコフモデル（HMM）
　2.1.3　音声認識のためのHMM
　2.1.4　HMMによる音声認識
　2.1.5　HMMの学習
　2.1.6　連続密度HMM
　2.1.7　サブワード単位
2.2　頑健性の向上
　2.2.1　状態共有
　2.2.2　適応化
2.3　識別学習の利用
2.4　ニューラルネットワーク・深層学習の利用
　2.4.1　ニューラルネットワーク
　2.4.2　深層ニューラルネットワーク（DNN）
　2.4.3　畳み込みニューラルネットワーク
　2.4.4　再帰型ニューラルネットワーク
　2.4.5　長・短期記憶
　2.4.6　コネクショニスト時系列識別法
　2.4.7　注意機構
引用・参考文献

3．言語モデルとその高度化
3.1　言語モデル
　3.1.1　統計的言語モデル
　3.1.2　ネットワーク文法
3.2　N-gramモデル
　3.2.1　N-gramモデルとは
　3.2.2　確率の平滑化
　3.2.3　階層ピットマン・ヨー言語モデル
　3.2.4　N-gramモデルの適応
3.3　統計的言語モデルの評価
　3.3.1　パープレキシティ
　3.3.2　補正パープレキシティ
3.4　頑健性の向上
　3.4.1　クラスN-gram
　3.4.2　トピックモデル
　3.4.3　最大エントロピー言語モデル
3.5　識別的言語モデル
3.6　ニューラルネットワーク・深層学習の利用
　3.6.1　全結合型ニューラルネットワーク言語モデル
　3.6.2　再帰型ニューラルネットワーク言語モデル
　3.6.3　音声認識での利用
　3.6.4　計算量の削減
引用・参考文献

4．話者認識
4.1　話者認識の概要
4.2　話者認識技術の進展と位置づけ
4.3　話者性の表現
　4.3.1　生成モデルによる方法
　4.3.2　識別モデルによる方法
　4.3.3　因子分析モデルによる方法
　4.3.4　話者内変動補正
　4.3.5　深層話者埋め込み
4.4　話者照合システムの評価
4.5　話者ダイアライゼーション
　4.5.1　話者セグメンテーション
　4.5.2　話者クラスタリング
　4.5.3　リセグメンテーション
　4.5.4　話者の表現
　4.5.5　クラスタリング技術
　4.5.6　性能評価
　4.5.7　音声コーパス・ツール
引用・参考文献

5．音声対話システム
5.1　対話システムのバリエーション
　5.1.1　モダリティ
　5.1.2　参加人数
　5.1.3　タスクとドメイン
　5.1.4　発話の単位
5.2　対話の主導権
　5.2.1　ユーザ主導，システム主導，混合主導
　5.2.2　2階層の主導権
　5.2.3　タスク指向型対話の抽象タスクと主導権
5.3　対話管理のモデル
　5.3.1　音声対話システムのモジュール構成
　5.3.2　オートマトンに基づく対話管理
　5.3.3　フレームに基づく対話管理
　5.3.4　アジェンダに基づく対話管理
5.4　対話戦略の学習
　5.4.1　対話状態推定
　5.4.2　発話選択
5.5　音声対話システムの評価
　5.5.1　評価の難しさ
　5.5.2　評価指標の分類
　5.5.3　PARADISE
　5.5.4　チューリングテスト
　5.5.5　被験者実験での注意点

引用・参考文献
索引

岩野公司（イワノコウジ）

河原達也（カワハラタツヤ）

篠田浩一（シノダコウイチ）

伊藤彰則（イトウアキノリ）

http://www.spcom.ecei.tohoku.ac.jp/

増村亮（マスムラリョウ）

小川哲司（オガワテツジ）

駒谷和範（コマタニカズノリ）

著作

: 音響学入門

: 音響情報ハイディング技術

: 音響学入門 - CD-ROM付 -

掲載日：2024/02/26

日本音響学会2024年春季研究発表会講演論文集広告

掲載日：2023/09/15

日本音響学会2023年秋季研究発表会講演論文集広告

掲載日：2023/03/03

日本音響学会 2023年春季研究発表会講演論文集広告

「音響学講座」ラインナップ

「音響学講座」発刊にあたって

　音響学は，本来物理学の一分野であり，17世紀にはその最先端の学問分野であった。その後，物理学の主流は量子論や宇宙論などに移り，音響学は，広い裾野を持つ分野に変貌していった。音は人間にとって身近な現象であるため，心理的な側面からも音の研究が行われて，現代の音響学に至っている。さらに，近年の計算機関連技術の進展は，音響学にも多くの影響を及ぼした。日本音響学会は，1977年以来，音響工学講座全8巻を刊行し，わが国の音響学の発展に貢献してきたが，近年の急速な技術革新や分野の拡大に対しては，必ずしも追従できていない。このような状況を鑑み，音響学講座全10巻を新たに刊行するものである。

　さて，音響学に関する国際的な学会活動を概観すれば，音響学の物理／心理的な側面で活発な活動を行っているのは，米国音響学会（Acoustical Society of America）であろう。しかしながら，同学会では，信号処理関係の技術ではどちらかというと手薄であり，この分野はIEEEが担っている。また，録音再生の分野では，Audio Engineering Society が活発に活動している。このように，国際的には，複数の学会が分担して音響学を支えている状況である。これに対し，日本音響学会は，単独で音響学全般を扱う特別な学会である。言い換えれば，音響学全体を俯瞰し，これらを体系的に記述する書籍の発行は，日本音響学会ならではの活動ということができよう。

　本講座を編集するにあたり，いくつか留意した点がある。前述のとおり本講座は10巻で構成したが，このうち最初の9巻は，教科書として利用できるよう，ある程度学説的に固まった内容を記述することとした。また，時代の流れに追従できるよう，分野ごとの巻の割り当てを見直した。旧音響工学講座では，共通する基礎の部分を除くと，6つの分野，すなわち電気音響，建築音響，騒音・振動，聴覚と音響心理，音声，超音波から成り立っていたが，そのうち，当時社会問題にもなっていた騒音・振動に2つの巻を割いていた。本講座では，昨今の日本音響学会における研究発表件数などを考慮し，騒音・振動に関する記述を1つの巻にまとめる代わりに，音声に2つの巻を割り当てた。さらに，音響工学講座では扱っていなかった音楽音響を新たに追加すると共に，これからの展開が期待される分野をまとめた第10巻「音響学の展開」を刊行することとし，新しい技術の紹介にも心がけた。

　本講座のような音響学を網羅・俯瞰する書籍は，国際的に見ても希有のものと思われる。本講座が，音響学を学ぶ諸氏の一助となり，また音響学の発展にいささかなりとも貢献できることを，心から願う次第である。

2019年1月

安藤彰男

科学技術と共に歩む