メディア学大系 13 音声音響インタフェース実践

メディア学大系 13

音声音響インタフェース実践

相川清明東京工科大教授工博著
大淵康成東京工科大教授博士（情報理工学）著

信号の基礎理論とその具体的応用，信号処理を応用したインタフェースについて解説し，実践を通して基礎理論の理解が深まるよう構成。

ジャンル

発行年月日: 2017/03/13

判型: A5

ページ数: 224ページ

ISBN: 978-4-339-02793-8

在庫あり

2営業日以内に出荷致します。

定価

3,190円(本体2,900円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
著者紹介
広告掲載情報

【読者対象】
音の信号処理、分析、合成について学びたい学生。特に、ツール、アルゴリズムやプログラムを通して、原理を具体的に理解、習得したい学生。

【書籍の特徴】
「音声音響インタフェース実践」という一見演習の手引きのように思えるタイトルですが、実践を通して基礎理論の理解を深めることを目的としています。単に数式を用いて原理を解説するのではなく、具体的にコンピュータを用いてどのような演算をしたらよいのかを解説します。メディ学大系第４巻「マルチモーダルコミュニケーション」の中で、音のディジタル信号処理の理論を解説していますが、本書は、そこには記載できなかった信号の基礎理論とその具体的応用、及び信号処理を応用したインタフェースについて解説します。

【各章について】
1章は短い導入部で全体を概観しています。２章の信号処理の基礎理論では、特に具体的な数値を挙げて物理現象を実感できるように工夫しています。複素数を含む数式や演算の意味をわかりやすく解説するようにしています。本書では、エコーキャンセラのような高度の処理についても触れていますが、何をしたいのかから始まって、レベルの高い理論まで段階を追ってスムーズに導いています。ビームフォーマという特定の方向からの音を取り込む仕組みについては、難しい理論をわかりやすい図を多用して理解に結び付けています。ブラインド音源分離や独立成分分析など、最先端の信号処理技術をもそのしくみがわかりやすいように解説しました。さらに、音場制御や騒音の除去の側面からも基礎的な数式を用いながらも原理の理解に重点を置いた解説を行っています。
３章はパソコンで動作する信号処理ツールを用いてディジタル信号処理を実感できる構成としました。本書で用いているMATLABやScilabを利用すれば、簡単に音の入出力や生成加工ができます。さらに、なかなかイメージをつかみにくい複素関数の演算も簡単に行うことができます。これらのツールは描画能力にも優れているので、処理した結果を音だけでなく、さまざまな図に表現することができます。特にディジタルフィルタの演算や伝達関数の表示では、これらのツールは威力を発揮すします。
第４章はその他の音声音響処理用のツールと最先端の考え方の紹介です。特に、音響特徴の学習に基づく最近の音声認識や機械学習についてわかりやすく解説しており、最先端のディープラーニングにまで触れています。

【著者からのメッセージ】
本書は、段階を追って読まないと理解できないということはなく、どこから読み始めても良い構成となっています。第１章は各章への導入部なので、まず、それを読んでいただき、必要に応じて、各章に進んでいただくと良いと思われます。本書は実践を通して理論を理解するための書物であり、プログラムや演算を記載している部分では、なるべくプログラムや演算を実践しながら読み進んでいただけると幸いです。

本書は「音声音響インタフェース実践」という一見演習の手引きのように思えるタイトルであるが，実践を通して基礎理論の理解を深めることを目的としている。「メディア学大系」第4巻「マルチモーダルインタラクション」の中で，音のディジタル信号処理の理論を解説しているが，本書は，そこには記載できなかった信号の基礎理論とその具体的応用，および信号処理を応用したインタフェースについて解説する。

2章では，特に具体的な数値を挙げて物理現象を実感できるように工夫した。複素数を含む数式や演算の意味をわかりやすく解説するようにしている。本書では，エコーキャンセラのような高度な処理についても触れているが，何をしたいのかから始まって，レベルの高い理論まで段階を追ってスムーズに導いている。ビームフォーマという特定の方向からの音を取り込む仕組みについては，難しい理論をわかりやすい図を多用して理解に結びつけている。ブラインド音源分離や独立成分分析などの最先端の信号処理技術をも，その仕組みがわかりやすいように解説した。さらに，音場制御や騒音の除去の側面からも，基礎的な数式を用いながらも原理の理解に重点を置いた解説を行っている。

3章は，信号処理ツールを用いてディジタル信号処理を実感できる構成とした。東京工科大学のメディア学部はノートパソコン必携である。このため，授業でこのような信号処理ツールを活用できる。本書で用いているMATLABやScilabを用いると，簡単に音の入出力や生成加工ができる。さらに，なかなかイメージをつかみにくい複素関数の演算も簡単に行うことができる。これらのツールは描画能力にも優れているので，処理した結果を音だけでなく，さまざまな図に表現することができる。特にディジタルフィルタの演算や伝達関数の表示では，これらのツールは威力を発揮する。本章では，これらのツールを使うことにより，理論を実感して理解できるようにした。

4章は，その他の音声音響処理用のツールと最先端の考え方の紹介である。特に，データから得られた特徴量の学習に基づく最近の音声認識や機械学習についてわかりやすく解説しており，最先端のディープラーニングにまで触れている。

本書は，1，2，4章を大淵が，3章を相川が担当した。これらの章は，段階を追って読まないと理解できないということはなく，どこから読み始めてもよい。1章は各章への導入部なので，まずそれを読んでいただき，必要に応じて各章に進んでいただくとよいと思われる。本書は実践を通して理論を理解するための書物であり，プログラムを記載している部分では，なるべく紹介しているツールを手元において，実践しながら読み進んでいただけると幸いである。

2017年1月　相川清明・大淵康成

1.　音声音響インタフェースの実現のために
1.1　身の回りの音声音響インタフェース
1.2　ツールを活用したインタフェース実践
演習問題

2.　音響インタフェース実現のための基礎知識
2.1　音の性質と周波数分析
　2.1.1　音波の伝搬とエネルギー
　2.1.2　音の振動と三角関数
　2.1.3　波の重ね合わせとフーリエ変換
　2.1.4　スペクトログラム
　2.1.5　サンプリング
　2.1.6　畳み込み演算と伝達関数
　2.1.7　音の複素数表現
2.2　エコーキャンセラ
　2.2.1　エコーの発生とハウリング
　2.2.2　エコーサプレッサ
　2.2.3　エコーキャンセラの原理
　2.2.4　誤差最小化による解法
　2.2.5　LMSアルゴリズム
　2.2.6　非線形エコーキャンセラ
　2.2.7　ダブルトーク検出
　2.2.8　エコーキャンセラの実装
2.3　マイクロホンアレイ
　2.3.1　複数のマイクで取り込んだ音の性質
　2.3.2　適応ノイズキャンセラ
　2.3.3　遅延和ビームフォーマ
　2.3.4　死角形成型ビームフォーマ
　2.3.5　適応ビームフォーマ
　2.3.6　音源方向推定
　2.3.7　非同期マイクロホンアレイ
2.4　ブラインド信号分離
　2.4.1　周波数領域でのバイナリマスキング
　2.4.2　独立成分分析
　2.4.3　非負値行列因子分解
2.5　単一マイク信号からの雑音抑圧
　2.5.1　スペクトルサブトラクション
　2.5.2　統計的雑音抑圧
2.6　音場制御
　2.6.1　インパルス応答と伝達関数の測定
　2.6.2　ステレオ再生とサラウンド
　2.6.3　バイノーラル録音
　2.6.4　頭部伝達関数
　2.6.5　アクティブノイズコントロール
　2.6.6　スピーカアレイ
　2.6.7　パラメトリックスピーカ
演習問題

3.　MATLAB/Scilabによる音声音響信号処理の実践
3.1　音声音響信号の入出力と描画
　3.1.1　本章におけるきまり
　3.1.2　ディジタル音信号の作成と出力
　3.1.3　音の入力
　3.1.4　ファイルへの保存と読み込み
　3.1.5　波形とスペクトルの描画
3.2　ディジタルフィルタ
　3.2.1　通過帯域によるフィルタの分類
　3.2.2　時間領域と周波数領域
　3.2.3　フィルタ演算
　3.2.4　FIRフィルタとIIRフィルタ
　3.2.5　フィルタの周波数特性
　3.2.6　極と零点
　3.2.7　IIRディジタルフィルタ
　3.2.8　収束する場合
　3.2.9　IIRフィルタ出力が発散する場合
　3.2.10　安定性
　3.2.11　極が負の実数で重根の場合の伝達関数
　3.2.12　極が複素数の場合
　3.2.13　Q値が高いフィルタ
　3.2.14　バターワースフィルタとチェビシェフフィルタ
3.3　効果音の生成
　3.3.1　音の加工
　3.3.2　ビブラート
　3.3.3　倍音成分を含むビブラート
　3.3.4　リバーブとエコー
3.4　スペクトル分析
　3.4.1　スペクトログラム
　3.4.2　窓関数
　3.4.3　プリエンファシス
　3.4.4　マトリックスの色表示
3.5　音声音響特有の信号処理
　3.5.1　線形予測分析
　3.5.2　ボコーダ
3.6　音声認識と音声合成のための基本演算
　3.6.1　ケプストラム
　3.6.2　ケプストラムによるピッチ抽出
　3.6.3　変形相関関数によるピッチ抽出
　3.6.4　音声認識における音響処理の基本
　3.6.5　ユークリッド距離
　3.6.6　cos類似度
3.7　楽器音の合成
　3.7.1　合成方式
　3.7.2　VCO
　3.7.3　VCA
　3.7.4　ADSR
　3.7.5　VCF
　3.7.6　RG
　3.7.7　LFO
　3.7.8　シンセサイザのプログラム
演習問題

4.　ツールキットを活用した音声音響信号処理と機械学習の実践
4.1　音響データ収集
　4.1.1　音のデータを集める
　4.1.2　声のバリエーション
　4.1.3　音のデータを作る
　4.1.4　公開データを活用する
　4.1.5　A-D変換とファイルフォーマット
　4.1.6　学習データと評価データ
4.2　音響分析と特徴抽出
　4.2.1　音響分析
　4.2.2　スペクトル分析
　4.2.3　MFCC
　4.2.4　韻律特徴量
　4.2.5　OpenSMILE
4.3　音声認識
　4.3.1　音声認識システムの構成
　4.3.2　音声認識のツール
4.4　機械学習
　4.4.1　多変量解析による自動分類
　4.4.2　多クラス分類問題
　4.4.3　決定木による分類
　4.4.4　サポートベクターマシン
　4.4.5　WEKA
　4.4.6　ディープラーニング
演習問題

引用・参考文献
演習問題解答
索引

相川清明（アイカワキヨアキ）

卒業研究ではレーザー光線を使った立体写真であるホログラフィの研究を行いました。大学院では生体信号処理の研究を行い、企業に就職してからは音声認識の研究を行ってきました。これらの研究は一見脈絡は無いように思われますが、信号の取り扱いという観点では共通なところが多いのです。音声認識では特に、聴覚の優れた機能を取り入れた信号処理の方法について研究を行ってきました。大学に移ってからは、音声だけでなく音や音楽、さらには視聴覚にも分野を拡大して研究を進めてきました。

http://www.teu.ac.jp/info/lab/teacher/index.html?id=1556

大淵康成（オオブチヤスナリ）

大学では物理学科に所属し、光物性の研究をしていました。その後、会社に入って情報分野に進み、ニューラルネットワークの研究をするようになりました。始めてみてわかったのですが、ニューラルネットワークの世界では、大学で学んだ統計力学の知識が多いに役立ちました。その後、再度研究分野を変更し、音声認識の研究に携わるようになりました。その頃、音声認識にニューラルネットワークを使うのは、やや時代遅れという感じでしたが、それから15年ぐらいたって、深層学習という言葉とともに、ニューラルネットワークが脚光を浴びる時代が再び訪れました。

2015年に大学に移ってからは、音声認識だけでなく、音響信号処理や音楽情報処理など、音に関わる様々な分野を対象に研究を続けています。自分の住み慣れた分野を離れて新しい分野に進むのは勇気がいりますが、これまでの経験から、様々な研究分野は思いがけないところで繋がっていて、他分野の経験はきっとどこかで役に立つと思っています。

私自身は楽器の演奏は全くできないのですが、研究室には楽器が得意な学生さんも多く、自分の演奏を題材とした研究テーマなども提案してくれます。そういったテーマでも、技術や理論の側から支援できることが沢山あります。もちろん、昔からやっている音声認識の分野でも、まだまだやってみたいテーマはあって、あれやこれやと考えながら楽しい研究生活を送っています。