音声言語処理と自然言語処理 (増補)

音声言語処理と自然言語処理 (増補)

音声言語処理と自然言語処理を有機的に関連付け,工学的応用を目的とした基礎技術について解説した。

ジャンル
発行年月日
2018/09/20
判型
A5
ページ数
302ページ
ISBN
978-4-339-02888-1
音声言語処理と自然言語処理 (増補)
在庫あり

定価

3,520(本体3,200円+税)

カートに入れる

電子版を購入

購入案内

  • 内容紹介
  • まえがき
  • 目次
  • レビュー
  • 著者紹介

音声言語処理と自然言語処理を有機的に関連付け,音声認識/音声合成/テキスト解折/検索/質問応答/機械翻訳/対話などを目的とした基礎技術について解説した。増補版では深層ニューラルネットワークによる方法を追加・解説した。

1章「音声と言語の諸相」では,本書のキーワードである「音声学」,「言語学」,「音声言語」,「自然言語」,「話し言葉」,「書き言葉」,「文法,意味,談話」,「言語獲得」,および応用分野などについて全体像と相互関係を述べ,2章以降の理解の準備とする。
2章「音声言語処理のモデル」では,
①音声が伝える情報(言語的情報,パラ言語的情報,非言語的情報)は,音声のどの音響的側面が伝えているのか―音声の音響分析技術―,
②コンピュータを使って,音声から言語的情報を抽出する(音声のテキスト化)には,どうすればよいのか―音声の認識技術―,
③コンピュータを使って,言語的情報(テキストとして与えられる情報)を音声に変換するにはどうすればよいのか―音声の合成技術―,
を解説する。
3章「自然言語処理のモデル」では,文章全体の意味的な解釈が可能となるステップである形態素解析,構文解析,意味解析,文脈解析について説明した後,大きな注目を集めているニューラルネットワークによる自然言語処理を解説する。
4章「検索・質問応答システム」では,言語情報を含むデータベースを対象とした情報検索手法を述べる。まず4.1∼4.3節で,主要な言語情報メディアであるテキストを対象とした情報検索手法について説明する。テキストは,文字の列をそのまま記録したデータ構造であり,コンピュータで言語情報を扱う場合の最も直接的なメディアである。そのため,テキストを対象とした情報検索は,言語情報に対する情報検索技術の基盤となる。情報要求および検索される情報の単位の観点から,文字列照合,文書検索,質問応答の3 つに分類して説明する。続く4.4 節では,音声データを対象とした情報検索について,前節の手法がどのように適用できるかという視点から説明する。
5章「対話システム」では,自然言語あるいは音声言語を中心に,互いに同じ手段でインタラクションする(例えば音声言語には音声言語で答える) ようなものを対話と考え,まず人間どうしの対話の分析について述べ,さらに対話システムの実現方法などについて述べる。
6章「翻訳システム」では,機械翻訳の歴史をたどりながら機械翻訳における技術的な問題点を述べ,代表的な3 つの機械翻訳手法,および音声翻訳について述べる。
7章「テキスト,音声入力インタフェース」では,特に人からコンピュータや携帯端末,ロボットなどへの入力インタフェースの観点に焦点を当て,テキスト入力を目的とするユーザインタフェースをはじめとして,コンピュータへの意図伝達の手段としての自然言語や音声言語によるヒューマン-マシンインタフェース,複合的なインタフェースモダリティを利用するマルチモーダルインタフェースについて述べる。
8章「フリーソフトウェアによる演習」では,音声言語処理,自然言語処理に有用な各種フリーソフトウェアを紹介し,それらを用いた演習について概要を述べる。

増補版に寄せて

最近のビッグデータと深層ニューラルネットワークに基づくAIブームは,画像処理や音声処理,機械翻訳,将棋•囲碁のゲーム探索などにおいて画期的な成功をもたらし,今回のブームは本物と言われている。しかし,これに至るまでにニューラルネットワークのブームと期待外れは過去何回かあった。第1次ブームは,1960年代から1970年にかけて,Rosenblattのパーセプトロンの学習時代で,機械学習の理論的研究と小規模のパターン認識の研究が数多くなされた(第1次AIブームはこれより5年ほど早い)。この時代は,人間の脳機能に模したモデルで,何がどこまでできるか知的好奇心を満たす研究が主であり,小規模問題への適用段階であった。第2次ブームは,1980年代から1990年代にかけて,Rumelhartの誤差逆伝搬学習の時代で,脳モデルと認知心理学現象との対応や実世界のパターン認識等への応用研究が盛んに研究された。

しかし,同時期に進行していた確率•統計手法に優る成果が得られず,ブームは自然に去った。2010年代から現在まで続いている第3次ブームは,1980年代の千倍∼1万倍以上のコンピュータ処理能力の大幅な向上と大量の学習データ,大規模(深層)ネットワークの学習アルゴリズムの改善により,1980年代に証明されていたニューラルネットワークの潜在的能力を大規模のネットワークで引き出せるようになり,大きな発展を遂げている。

本書の第一版の執筆に取り掛かったのは,2011年であり(発刊は2013年),当時は確率•統計的手法が主流であり,深層ニューラルネットワークはそれほど成果が上がっておらず,本書の内容には含めなかった。ところが,最近の著しい発展•成果を見るにつけ,教科書とは言え,深層ニューラルネットワークによる音声処理技術•自然言語処理技術を無視するには行かなくなってきた。そこで,音声認識と音声合成,分散表現等による自然言語処理,機械翻訳に焦点を当てて,ニューラルネットワーク技術を必要最小限であるが追加•解説することにした。

ニューラルネットワークの基本構造である順伝搬型のネットワークを多層にした深層ニューラルネットワークの構造と学習方法,および他の代表的な構造である再帰型ニューラルネットワークと畳み込みニューラルネットワーク,応用範囲の広い自己符号化器は,まとめて2章で解説している。このほか2章では,ニューラルネットワークの音声認識,言語モデル,音声合成への適用方法について解説している。3章では,ニューラルネットワークによる単語の分散表現,文の構文解析と意味解析に相当する依存構造解析,文の分類問題への適用方法について解説している。近年,単語の分散表現は,文の分散表現や文章(パラグラフ)の分散表現に拡張され,自然言語処理の基本技術になりつつある。

6章では,ニューラルネットワークによる機械翻訳技術を解説している。これは系列–系列変換を基本とする手法で,記号の系列処理に関しても,ニューラルネットワークの能力の高さを示すものである。紙数の関係で本書では解説できなかったが,4章の検索•応答システム,5章の対話システム,7章の入力インタフェースにおいてもニューラルネットワーク技術の導入が進んでいる(7.3.2項に最近応用展開が目覚ましいスマートスピーカーの話題を追加している)。いずれも基本的には2章,3章,および6章で解説した手法に基づいている。8章のフリーソフトウエアによる演習においては,ニューラルネットワークによる音声認識,機械翻訳(分散表現含む)の演習を追加した。

旧版で詳述した音声の発生•生成現象や認識•合成メカニズム,自然言語の解析•理解メカニズムを確率•統計的にモデル化する従来の技術をよく理解した上で,ややもするとブラックボックス化したニューラルネットワーク技術を学ぶことにより,本書が音声言語処理や自然言語処理は勿論,他の多くの情報処理の技術開発の礎になれば幸いである。

2018年7月
中川聖一


まえがき

本書では音声言語と文字言語を対象とし,工学的応用(音声認識,音声合成,機械翻訳,検索など)を目的とした基礎技術について解説している。なお,一般には文字言語は自然言語と呼ばれており,本書もこれにならった。

音声とは,送信者から受信者へ意味のある意思伝達を声を媒介として行うときの声そのものである。これから,動物の発声する声はわれわれ人間にとっては単なる音,声にすぎないが,動物にとっては立派な音声であるといえる。また,言語とは何かを媒介として意味のある意思伝達を行う行為,行うための規則である。なお,辞書的な意味では,「音」→耳で聞くもの,「声」→発声器官を使って口から出る「音」,「言(こと,ことば)」→「声,文字」などを使って意図を伝えるものと定義される。音声を媒介とするものを音声言語,文字を媒介とするものを文字言語という。また,定義から視覚による言語も考えられる(身振りによる意思伝達,画像による意思伝達。例えば読唇,手話,象形文字)。さらには,プログラミング言語をはじめとする人工言語もある。

人間の歴史過程からいえば,音声言語は10~20万年前に自然発生的に発明された(解剖学的知見から推定,チンパンジーはいくら学習しても人間の音声は発声できない)。音声言語は,効率性と冗長性を反映した誤り訂正符号で,出現頻度の高い単語ほど発声時間が短いことなど情報理論的考察と符合する。これと比べれば,文字言語の発生(発明)はずっと新しい。文字言語の歴史は5000年程度,われわれ日本語に限れば1500年程度にすぎず,人類の数百万年以上の歴史と比べて微々たる期間である。しかし,文字言語の発明によって人類は急速な進歩を遂げた。これは,文字によって音声言語をシンボル化することができるようになり,それを記録として残すことができ,知識の伝承と正確な意思伝達,社会秩序の維持が可能になったためだと思われる。このことからも,音声言語を文字言語に自動変換できれば,計り知れない効用があることが想像できる。

以上からも明らかなように,音声言語と自然言語には密接な関連があることがわかっていただけたと思う。最近,とみに話し言葉に近いブログの解析や音声翻訳,音声によるウェブ検索など,音声言語処理と自然言語処理の統合分野での実用化が目立ってきた。今まで以上に,両分野に精通した技術者が望まれている。

本書は,音声言語処理と自然言語処理を有機的に関連付けたわが国で最初の大学の教科書である。学部でこの分野の講義がない場合は,大学院の教科書としても十分使用できる内容である。ただし,音声と言語の両分野を2単位分で学ぶのは量が多すぎるので,1章~4章と8章の演習が中心となる。音声言語処理に重点を置いた講義では,1章,2章,5章,7章および8章の演習を中心に,自然言語処理に重点を置いた講義では,1章,3章,4章,6章および8章の演習を中心に学ぶことをお薦めする。この分野に興味をもたれる方が少しでも増えれば著者らの望外の喜びである。

2013年1月
中川聖一

1. 音声と言語の諸相
1.1 音声科学と音声工学
1.2 言語科学と言語工学
1.3 音声学,音韻論と言語学
 1.3.1 音声学,音韻論
 1.3.2 言語学
1.4 話し言葉と書き言葉
 1.4.1 話し言葉の特徴
 1.4.2 書き言葉の特徴
1.5 言語の獲得
 1.5.1 音韻,音韻の構造,音韻体系の獲得
 1.5.2 文法の獲得と第2言語の学習
章末問題

2. 音声言語処理のモデル
2.1 音声の音響的分析とそのモデル
 2.1.1 音声生成のメカニズムとそのモデル
 2.1.2 音声に含まれる情報とその音響的対応物
 2.1.3 音声の記号化
 2.1.4 音声の音響的分析
 2.1.5 時間構造の異なる2つの特徴ベクトル系列の対応付け
2.2 音声の認識とそのモデル
 2.2.1 音声認識の難しさ
 2.2.2 音声認識問題の数理統計的な定式化
 2.2.3 音響モデル
 2.2.4 言語モデル
 2.2.5 仮説探索(デコーディング)
2.3 音声の合成とそのモデル
 2.3.1 テキスト音声合成の難しさ
 2.3.2 音韻処理
 2.3.3 韻律処理
 2.3.4 HMM音声合成方式による波形生成
2.4 深層ニューラルネットワークに基づく音声認識と音声合成
 2.4.1 多層化されたニューラルネットワークとその音声処理への応用
 2.4.2 誤差逆伝搬法と自己符号化器を使った事前学習
 2.4.3 GMM-HMMからDNN-HMMへ
 2.4.4 さまざまなネットワーク構造
 2.4.5 DNN/RNN/LSTMを用いた言語モデル
 2.4.6 DNN/RMM/LSTMを用いた音声合成
章末問題

3. 自然言語処理のモデル
3.1 形態素解析
 3.1.1 形態素解析の枠組み
 3.1.2 統計的モデルに基づく形態素解析
 3.1.3 仮名漢字変換
3.2 構文解析
 3.2.1 句構造解析
 3.2.2 係り受け解析
3.3 意味解析
 3.3.1 意味素とシソーラス
 3.3.2 格解析
 3.3.3 語義曖昧性解消
 3.3.4 語彙知識の獲得
3.4 文脈解析
 3.4.1 照応解析
 3.4.2 修辞構造解析
3.5 ニューラルネットワークによる自然言語処理
 3.5.1 単語の分散表現
 3.5.2 依存構造解析
 3.5.3 文の分類
章末問題

4. 検索・質問応答システム
4.1 文字列照合
 4.1.1 完全一致文字列照合のオンライン手法
 4.1.2 近似文字列照合のオンライン手法
 4.1.3 文字列照合のオフライン手法
 4.1.4 近似文字列照合と索引付け
4.2 文書検索
 4.2.1 文書のベクトル表現
 4.2.2 ベクトル空間モデル
 4.2.3 確率的言語モデルによる文書検索
4.3 質問応答
4.4 音声と情報検索
 4.4.1 音声ドキュメント検索の問題設定
 4.4.2 音声ドキュメント検索の課題と手法
章末問題

5. 対話システム
5.1 談話と対話
 5.1.1 談話とは
 5.1.2 対話と会話
 5.1.3 対話の公準
 5.1.4 談話,対話の構造
 5.1.5 対話行為
5.2 対話システム
 5.2.1 対話システムとは
 5.2.2 対話システムの構成
 5.2.3 対話の主導権
5.3 対話制御
 5.3.1 対話制御とは
 5.3.2 有限状態オートマトンによる状態表現を用いた対話制御
 5.3.3 意味表現に基づいた応答生成による対話制御-ケ-ススタディ-
 5.3.4 POMDPによる対話制御
5.4 マルチモーダル対話
 5.4.1 マルチモーダルな状態
 5.4.2 マルチモーダル対話システム
章末問題

6. 翻訳システム
6.1 機械翻訳の歴史と代表的なアプローチ
6.2 規則に基づく機械翻訳
 6.2.1 規則に基づく機械翻訳の概要
 6.2.2 単語変換
 6.2.3 構造変換
 6.2.4 規則に基づく手法の問題点
6.3 コーパスに基づく機械翻訳と統計的機械翻訳
 6.3.1 単語単位の統計的機械翻訳
 6.3.2 フレーズ単位の統計的機械翻訳
6.4 ニューラル機械翻訳
 6.4.1 系列変換モデルによる機械翻訳
 6.4.2 注意機構
6.5 音声翻訳
 6.5.1 テキスト機械翻訳と音声機械翻訳
 6.5.2 音声認識結果の整形
 6.5.3 統計的機械翻訳を用いた音声翻訳
 6.5.4 ニューラル機械翻訳による音声翻訳
章末問題

7. テキスト,音声入力インタフェース
7.1 ヒューマンインタフェース
7.2 テキスト入力インタフェース
7.3 音声入力インタフェース
 7.3.1 テキスト入力の手段としての音声インタフェース
 7.3.2 意図・情報伝達の手段としての音声インタフェース
7.4 マルチモーダル入力インタフェース
章末問題

8. フリーソフトウェアによる演習
8.1 音声分析,ラベリング
8.2 音声認識
8.3 音声合成
8.4 形態素解析
8.5 係り受け解析
8.6 全文検索
8.7 統計的機械翻訳
8.8 深層学習フレームワーク
演習課題

引用・参考文献
章末問題解答
索引

lattice 様

 言語学から数理モデルまで文理融合の幅広い知識が必要とされる、音声言語処理と自然言語処理についてわかりやすく学べる1冊です。
コロナ社から出版されている『自然言語処理の基礎』を読んで非常にわかりやすく興味深かったため、本書を読むことにしました。
音声言語処理のモデルはフーリエ変換からニューラルネットワークまで多岐にわたり、この本で個別の本を読んだり実装を始める前に、概要をつかむことができたのが良かったです。
対話システムや翻訳システムなど実社会でも使われている人間に近いシステムやインタフェースの説明も多く、数式レベルからそれらまでかなり多くの内容を扱っているので、少しずつ噛み砕いて読んでいきたいと思います。
章末問題とその解説、フリーソフトを使った演習も充実していて、読んで終わりにならない身につく内容でした。

中川 聖一(ナカガワ セイイチ)

小林 聡(コバヤシ サトシ)

宇津呂 武仁(ウツロ タケヒト)