音声言語処理の潮流

音声言語処理の潮流

音声生成過程のモデル化,音声合成,音声符号化,音声認識,言語処理,音声翻訳,音声会話システムについて詳しく説明した。本書を読むことにより,音声・言語処理分野技術の歴史的に重要な技術,現在の潮流を理解することができる。

  • 口絵
ジャンル
発行年月日
2010/03/30
判型
A5 上製
ページ数
322ページ
ISBN
978-4-339-00810-4
音声言語処理の潮流
在庫あり
2営業日以内に出荷致します。

定価

4,840(本体4,400円+税)

カートに入れる

購入案内

  • 内容紹介
  • 目次
  • 著者紹介

音声生成過程のモデル化,音声合成,音声符号化,音声認識,言語処理,音声翻訳,音声会話システムについて詳しく説明した。本書を読むことにより,音声・言語処理分野技術の歴史的に重要な技術,現在の潮流を理解することができる。

1. 音声生成
1.1 音声生成過程の観測
1.1.1 調音観測技術
1.1.2 音声生成にかかわる脳機能
1.2 声道音響モデル
1.2.1 声道音響理論
1.2.2 子音生成モデル
1.2.3 3次元声道音響モデル
1.3 調音モデル
1.3.1 幾何学的調音モデル
1.3.2 主成分調音モデル
1.3.3 生理的調音モデル
1.3.4 機械的調音モデル
1.4 調音運動軌道生成モデル
1.4.1 ターゲットモデル
1.4.2 タスクダイナミックモデル
1.4.3 音響タスクモデル
1.5 音声からの調音運動の推定
1.5.1 調音パラメータ推定における解の非一意性
1.5.2 声道断面積関数の推定
1.5.3 調音パラメータの推定
1.6 まとめ

2. 音声符号化
2.1 音声符号化の流れ
2.1.1 アナログからディジタルへ
2.1.2 音声符号化で考慮すべき項目
2.2 波形符号化技術
2.2.1 波形符号化の流れ
2.2.2 波形符号化の例
2.3 ボコーダ技術
2.3.1 ボコーダの始まり
2.3.2 音声の線形予測符号化とスペクトル推定
2.3.3 ボコーダの展開
2.3.4 極低ビットレート符号化
2.4 ハイブリッド符号化
2.4.1 CELP音声符号化技術
2.4.2 CELPの雑音符号帳の構成
2.4.3 CELP系符号化の標準化技術
2.5 MPEGのオーディオ符号化
2.6 これからの音声符号化の流れ
2.6.1 高品質化
2.6.2 高機能化
2.7 まとめ

3. 音声合成
3.1 音声合成の始まりからテキストからの音声合成まで
3.1.1 音声合成の始まり
3.1.2 分析合成
3.1.3 規則合成
3.1.4 テキストからの音声合成
3.2 高品質化に向けた展開
3.2.1 学習による音声合成単位生成
3.2.2 統計的手法による韻律制御
3.2.3 コーパスベース音声合成
3.3 多様化に向けた展開
3.3.1 発話様式の分析と変換
3.3.2 対話音声の合成
3.3.3 声質変換
3.3.4 音声多様表現のツール
3.4 音声合成のアプリケーション
3.4.1 文章校正・入力確認
3.4.2 電話予約
3.4.3 音声対話
3.4.4 福祉
3.4.5 CAI
3.5 まとめ

4. 音声認識
4.1 統計的音響モデル
4.1.1 DTWからHMMへ
4.1.2 HMMの利点
4.2 HMMのモデル構造の進展
4.2.1 出力確率分布表現の向上
4.2.2 時間構造の表現方法の向上
4.2.3 モデル構造の共有化
4.3 HMMパラメータ推定の進展
4.3.1 最尤学習
4.3.2 識別学習
4.3.3 ベイズ学習
4.3.4 適応学習
4.4 ハイブリッドアプローチ
4.4.1 初期のアプローチ
4.4.2 タンデムアプローチ
4.4.3 動的特徴量・長時間特徴量
4.5 実環境における音声認識
4.5.1 雑音に強い特徴量・距離尺度
4.5.2 スペクトルサブトラクション
4.5.3 HMMの合成・分解
4.5.4 マルチストリームアプローチ
4.5.5 音声強調
4.5.6 雑音下音声認識のための共通コーパス
4.6 大語彙連続音声認識
4.6.1 連続音声認識アルゴリズム
4.6.2 統計的言語モデル
4.6.3 DARPAにおける音声認識の歴史
4.6.4 日本語大語彙連続音声認識
4.7 字幕放送への応用
4.7.1 字幕制作のための音声認識
4.7.2 認識方式とモデルの学習
4.7.3 発話検出と男女並列音声認識
4.7.4 逐次早期確定
4.8 まとめ

5. 音声対話システム
5.1 対話の意味理解と応答・進行の自然性
5.1.1 状態遷移に応じた音声理解と対話進行
5.1.2 深層的な意図を理解した対話進行
5.1.3 ユーザの自由な発話を許す対話進行
5.1.4 リスク最小化に基づく効率的な対話進行
5.1.5 確率モデルによる対話進行
5.2 会話のリズム
5.2.1 会話のリズムとターンテーキングの数理モデル
5.2.2 発話内容の動的制御
5.2.3 韻律情報の分析方法
5.3 ロボットによるマルチモーダル会話
5.3.1 初期の会話ロボット
5.3.2 パラ言語を表出する会話ロボット
5.3.3 パラ言語を理解する会話ロボット
5.3.4 グループ会話
5.4 まとめ

6. 言語処理・機械翻訳
6.1 言語処理へのアプローチ
6.2 言語処理システムと言語処理技術・言語知識
6.2.1 言語処理システムの構成(機械翻訳を例に)
6.2.2 言語解析技術
6.2.3 機械翻訳技術
6.2.4 言語知識の獲得・構築の方法論
6.3 音声翻訳
6.3.1 音声翻訳研究のためのコーパス
6.3.2 機械翻訳の評価指標と音声翻訳への適用
6.3.3 音声翻訳の現状
6.3.4 音声翻訳の今後
6.4 まとめ

7. 情報アクセス
7.1 情報探索行動と情報アクセス技術
7.2 テキスト情報アクセス
7.2.1 テキスト情報検索
7.2.2 Web検索
7.2.3 質問応答
7.2.4 評価・評判情報へのアクセス
7.3 マルチメディア情報アクセス
7.3.1 マルチメディア情報アクセスの課題
7.3.2 音声認識を利用した映像インデクシング
7.3.3 視覚的特徴を利用した映像インデクシング
7.3.4 メタデータ制作・活用システム
7.3.5 今後の展開
7.4 まとめ

8. 展望
8.1 統計的アプローチと音声基礎科学
8.2 総合的音声応用システム開発技術
8.3 音声言語処理の部品化とアーキテクチャ
8.4 ユーザエクスペリエンス
8.5 まとめ

引用・参考文献
索引

白井 克彦(シライ カツヒコ)

小林 哲則(コバヤシ テツノリ)

阿部 匡伸(アベ マサノブ)

岩田 和彦(イワタ カズヒコ)

竹澤 寿幸(タケザワ コトブキユキ)

今井 亨(イマイ トオル)

高橋 敏(タカハシ サトシ)

菊池 英明(キクチ ヒデアキ)

大附 克年(オオツキ カツトシ)

帆足 啓一郎(ホアシ ケイイチロウ)

正木 信夫(マサキ シノブ)

藤澤 浩道(フジサワ ヒロミチ)

小坂 直敏(オサカ ナオトシ)