マルチモーダルインタラクション

メディア学大系 4

マルチモーダルインタラクション

コンピュータとのインタラクションコミュニケーションを可能にするための基礎理論と,要素技術についてわかりやすく解説した。

ジャンル
発行年月日
2013/10/17
判型
A5
ページ数
254ページ
ISBN
978-4-339-02784-6
マルチモーダルインタラクション
在庫あり
2営業日以内に出荷致します。

定価

3,300(本体3,000円+税)

カートに入れる

電子版を購入

購入案内

  • 内容紹介
  • 目次
  • 著者紹介
  • 広告掲載情報

【読者対象】
人間と自然なコミュニケーションが行える人工物(対話システムやAIロボット)の制作に将来携わりたい学生。特に、音声に載せて発される言語情報や韻律情報、視線や頭部の動き・ジェスチャーといった身体情報の解析に興味のある学生。

【書籍の特徴】
人がコミュニケーションをするためのメディア、言語や音声、身体の動きといった複数のモダリティが工学的にどのように解析されるかについて解説しています。また、人とコンピュータの社会的なインタラクションのモデル化に関する研究を紹介しています。

【各章について】
1章では、言語・音声・非言語に関わる工学的研究を概観します。2章ではインタラクティブに対話を行うための根幹となる言語処理を取り上げます。3章では言語情報と同時に発せられる音声音響信号処理を解説します。4章では視線や身体動作を含むマルチモーダル『インタラクションメディアがコミュニケーションでどのように使われるかを研究するための手法を解説します。5章ではマルチモーダルインタラクションを扱った人と人、人とコンピュータの社会的インタラクションのモデル化に関する研究を紹介します。

【著者からのメッセージ】
私達は21世紀になったら、「心」をもつ鉄腕アトムや子供と喜怒哀楽を享有しくれるドラえもんがやってくるのだと夢見たものです。意外に21世紀はすぐにやってきて、世界中の人と瞬時につながるネットワークやプロ囲碁棋士を打ち破るAIとか当時は想像もつかなかった技術が登場しました。でも、まだ私達の身近に話し相手となってくれるようなロボットはいません。AIが日常会話に参加できる日を夢見て、本書を紐解いてもらえたら幸いです。

1. 人と人,人とコンピュータのインタラクションを介在するメディア
1.1 人間が持つマルチモーダルインタラクションメディア 
1.2 言語処理のあゆみ 
1.3 音声音響処理のあゆみ 
1.4 身体を持った人工物のあゆみ 
演習問題 

2. 言語処理
2.1 文法 
 2.1.1 文の基本構造 
 2.1.2 文法の基本 
 2.1.3 形態素解析 
 2.1.4 句構造文法 
2.2 形式言語 
 2.2.1 文脈自由文法 
 2.2.2 構文解析 
2.3 自然言語の統計的・確率的な性質 
 2.3.1 単語の出現頻度 
 2.3.2 Nグラム統計モデル 
 2.3.3 確率文法 
2.4 言語の理解 
 2.4.1 言語の意味理解 
 2.4.2 語が担う意味役割 
 2.4.3 言語解釈と言語行為 
演習問題 

3. 音声音響信号処理
3.1 アナログからデジタルへ 
 3.1.1 本章におけるきまり 
 3.1.2 音は波 
 3.1.3 音のデジタル化
3.2 時間領域と周波数領域 
 3.2.1 周期的波形 
 3.2.2 フーリエ展開 
 3.2.3 フーリエ展開の複素表現 
 3.2.4 フーリエ変換 
 3.2.5 FFT 
 3.2.6 z変換 
3.3 さまざまな音信号 
 3.3.1 周波数変化音 
 3.3.2 振幅変化音 
3.4 デジタルフィルタ 
 3.4.1 時系列信号の演算の特性 
 3.4.2 FIRフィルタ 
 3.4.3 インパルス応答 
 3.4.4 IIRフィルタ 
 3.4.5 最小位相 
3.5 スペクトル分析 
 3.5.1 短区間の切り出し 
 3.5.2 振幅スペクトルとパワースペクトル 
 3.5.3 対数スペクトル 
 3.5.4 スペクトログラム 
3.6 音声特有の信号処理 
 3.6.1 線形予測分析 
 3.6.2 ケプストラム 
 3.6.3 ケプストラムによるピッチ抽出 
 3.6.4 LPCケプストラム 
 3.6.5 変形相関関数によるピッチ抽出 
3.7 音声分析と声質 
3.8 音声認識と音声合成の音響処理 
 3.8.1 メル周波数軸 
 3.8.2 MFCC 
 3.8.3 デルタケプストラム 
 3.8.4 音声認識における音響処理の基本 
 3.8.5 類似度 
 3.8.6 DPマッチング 
 3.8.7 隠れマルコフモデル 
演習問題 

4. マルチモーダル情報付きデータベースの作成法
4.1 マルチモーダル情報とは 
4.2 実験室データとフィールドデータをめぐる諸相 
4.3 非言語情報付きデータの作成法 
 4.3.1 3人自由会話 
 4.3.2 合意形成型多人数会話 
 4.3.3 日常活動データ 
 4.3.4 世代間協働インタラクションデータ 
4.4 言語・非言語行動のアノテーション 
 4.4.1 言語行動のアノテーション 
 4.4.2 非言語行動のアノテーション 
4.5 言語・非言語情報のデータベース化 
 4.5.1 アノテーション単位ごとのテーブル 
 4.5.2 アノテーション単位間の関連性を記したテーブル 
演習問題 

5. マルチモーダルインタラクション分析
5.1 話者交替にかかわる話し手と聞き手たちの視線の向き 
 5.1.1 方法 
 5.1.2 分析1:一般的傾向 
 5.1.3 分析2:変則事例の分析 
 5.1.4 議論 
5.2 人-人インタラクションと人-CG エージェントインタラクションの行為交替規則 
 5.2.1 人と人工物の社会的インタラクションにかかわる先行研究 
 5.2.2 人間どうしの社会的インタラクションにかかわる先行研究 
 5.2.3 対話資料 
 5.2.4 非言語行動のラベリング 
 5.2.5 分析:人-人,人-エージェントの対話の基礎的特徴 
 5.2.6 人対人の対話における行為の配置規則の定式化 
 5.2.7 人対エージェントの対話において行為の配置規則は守られるか 
 5.2.8 まとめ 
演習問題 

引用・参考文献 
演習問題解答 
索引

飯田 仁(イイダ ヒトシ)

相川 清明

相川 清明(アイカワ キヨアキ)

卒業研究ではレーザー光線を使った立体写真であるホログラフィの研究を行いました。大学院では生体信号処理の研究を行い、企業に就職してからは音声認識の研究を行ってきました。これらの研究は一見脈絡は無いように思われますが、信号の取り扱いという観点では共通なところが多いのです。音声認識では特に、聴覚の優れた機能を取り入れた信号処理の方法について研究を行ってきました。大学に移ってからは、音声だけでなく音や音楽、さらには視聴覚にも分野を拡大して研究を進めてきました。

掲載日:2021/01/06

「電子情報通信学会誌」2021年1月号広告

☆シリーズ特設ページ☆