音声音響インタフェース実践

メディア学大系 13

音声音響インタフェース実践

信号の基礎理論とその具体的応用,信号処理を応用したインタフェースについて解説し,実践を通して基礎理論の理解が深まるよう構成。

ジャンル
発行年月日
2017/03/13
判型
A5
ページ数
224ページ
ISBN
978-4-339-02793-8
  • 内容紹介
  • まえがき
  • 目次
  • 著者紹介

信号の基礎理論とその具体的応用,および信号処理を応用したインタフェースについて丁寧に解説し,実践を通して基礎理論の理解が深まるよう構成した。最近の音声認識や機械学習,最先端のディープラーニングについても紹介。

本書は「音声音響インタフェース実践」という一見演習の手引きのように思えるタイトルであるが,実践を通して基礎理論の理解を深めることを目的としている。「メディア学大系」第4巻「マルチモーダルインタラクション」の中で,音のディジタル信号処理の理論を解説しているが,本書は,そこには記載できなかった信号の基礎理論とその具体的応用,および信号処理を応用したインタフェースについて解説する。

2章では,特に具体的な数値を挙げて物理現象を実感できるように工夫した。複素数を含む数式や演算の意味をわかりやすく解説するようにしている。本書では,エコーキャンセラのような高度な処理についても触れているが,何をしたいのかから始まって,レベルの高い理論まで段階を追ってスムーズに導いている。ビームフォーマという特定の方向からの音を取り込む仕組みについては,難しい理論をわかりやすい図を多用して理解に結びつけている。ブラインド音源分離や独立成分分析などの最先端の信号処理技術をも,その仕組みがわかりやすいように解説した。さらに,音場制御や騒音の除去の側面からも,基礎的な数式を用いながらも原理の理解に重点を置いた解説を行っている。

3章は,信号処理ツールを用いてディジタル信号処理を実感できる構成とした。東京工科大学のメディア学部はノートパソコン必携である。このため,授業でこのような信号処理ツールを活用できる。本書で用いているMATLABやScilabを用いると,簡単に音の入出力や生成加工ができる。さらに,なかなかイメージをつかみにくい複素関数の演算も簡単に行うことができる。これらのツールは描画能力にも優れているので,処理した結果を音だけでなく,さまざまな図に表現することができる。特にディジタルフィルタの演算や伝達関数の表示では,これらのツールは威力を発揮する。本章では,これらのツールを使うことにより,理論を実感して理解できるようにした。

4章は,その他の音声音響処理用のツールと最先端の考え方の紹介である。特に,データから得られた特徴量の学習に基づく最近の音声認識や機械学習についてわかりやすく解説しており,最先端のディープラーニングにまで触れている。

本書は,1,2,4章を大淵が,3章を相川が担当した。これらの章は,段階を追って読まないと理解できないということはなく,どこから読み始めてもよい。1章は各章への導入部なので,まずそれを読んでいただき,必要に応じて各章に進んでいただくとよいと思われる。本書は実践を通して理論を理解するための書物であり,プログラムを記載している部分では,なるべく紹介しているツールを手元において,実践しながら読み進んでいただけると幸いである。

2017年1月 相川清明・大淵康成

1. 音声音響インタフェースの実現のために
1.1 身の回りの音声音響インタフェース 
1.2 ツールを活用したインタフェース実践 
演習問題 

2. 音響インタフェース実現のための基礎知識
2.1 音の性質と周波数分析 
 2.1.1 音波の伝搬とエネルギー 
 2.1.2 音の振動と三角関数 
 2.1.3 波の重ね合わせとフーリエ変換 
 2.1.4 スペクトログラム 
 2.1.5 サンプリング 
 2.1.6 畳み込み演算と伝達関数 
 2.1.7 音の複素数表現 
2.2 エコーキャンセラ 
 2.2.1 エコーの発生とハウリング 
 2.2.2 エコーサプレッサ 
 2.2.3 エコーキャンセラの原理 
 2.2.4 誤差最小化による解法 
 2.2.5 LMSアルゴリズム 
 2.2.6 非線形エコーキャンセラ 
 2.2.7 ダブルトーク検出 
 2.2.8 エコーキャンセラの実装 
2.3 マイクロホンアレイ 
 2.3.1 複数のマイクで取り込んだ音の性質 
 2.3.2 適応ノイズキャンセラ 
 2.3.3 遅延和ビームフォーマ 
 2.3.4 死角形成型ビームフォーマ 
 2.3.5 適応ビームフォーマ 
 2.3.6 音源方向推定 
 2.3.7 非同期マイクロホンアレイ 
2.4 ブラインド信号分離 
 2.4.1 周波数領域でのバイナリマスキング 
 2.4.2 独立成分分析 
 2.4.3 非負値行列因子分解 
2.5 単一マイク信号からの雑音抑圧 
 2.5.1 スペクトルサブトラクション 
 2.5.2 統計的雑音抑圧 
2.6 音場制御 
 2.6.1 インパルス応答と伝達関数の測定 
 2.6.2 ステレオ再生とサラウンド 
 2.6.3 バイノーラル録音 
 2.6.4 頭部伝達関数 
 2.6.5 アクティブノイズコントロール 
 2.6.6 スピーカアレイ 
 2.6.7 パラメトリックスピーカ 
演習問題 

3. MATLAB/Scilabによる音声音響信号処理の実践
3.1 音声音響信号の入出力と描画 
 3.1.1 本章におけるきまり 
 3.1.2 ディジタル音信号の作成と出力 
 3.1.3 音の入力 
 3.1.4 ファイルへの保存と読み込み 
 3.1.5 波形とスペクトルの描画 
3.2 ディジタルフィルタ 
 3.2.1 通過帯域によるフィルタの分類 
 3.2.2 時間領域と周波数領域 
 3.2.3 フィルタ演算 
 3.2.4 FIRフィルタとIIRフィルタ 
 3.2.5 フィルタの周波数特性 
 3.2.6 極と零点 
 3.2.7 IIRディジタルフィルタ 
 3.2.8 収束する場合 
 3.2.9 IIRフィルタ出力が発散する場合 
 3.2.10 安定性 
 3.2.11 極が負の実数で重根の場合の伝達関数 
 3.2.12 極が複素数の場合 
 3.2.13 Q値が高いフィルタ 
 3.2.14 バターワースフィルタとチェビシェフフィルタ 
3.3 効果音の生成 
 3.3.1 音の加工 
 3.3.2 ビブラート 
 3.3.3 倍音成分を含むビブラート 
 3.3.4 リバーブとエコー 
3.4 スペクトル分析 
 3.4.1 スペクトログラム 
 3.4.2 窓関数 
 3.4.3 プリエンファシス 
 3.4.4 マトリックスの色表示 
3.5 音声音響特有の信号処理 
 3.5.1 線形予測分析 
 3.5.2 ボコーダ 
3.6 音声認識と音声合成のための基本演算 
 3.6.1 ケプストラム 
 3.6.2 ケプストラムによるピッチ抽出 
 3.6.3 変形相関関数によるピッチ抽出 
 3.6.4 音声認識における音響処理の基本 
 3.6.5 ユークリッド距離 
 3.6.6 cos類似度 
3.7 楽器音の合成 
 3.7.1 合成方式 
 3.7.2 VCO 
 3.7.3 VCA 
 3.7.4 ADSR 
 3.7.5 VCF 
 3.7.6 RG 
 3.7.7 LFO 
 3.7.8 シンセサイザのプログラム 
演習問題 

4. ツールキットを活用した音声音響信号処理と機械学習の実践
4.1 音響データ収集 
 4.1.1 音のデータを集める 
 4.1.2 声のバリエーション 
 4.1.3 音のデータを作る 
 4.1.4 公開データを活用する 
 4.1.5 A-D変換とファイルフォーマット 
 4.1.6 学習データと評価データ 
4.2 音響分析と特徴抽出 
 4.2.1 音響分析 
 4.2.2 スペクトル分析 
 4.2.3 MFCC 
 4.2.4 韻律特徴量 
 4.2.5 OpenSMILE 
4.3 音声認識 
 4.3.1 音声認識システムの構成 
 4.3.2 音声認識のツール 
4.4 機械学習 
 4.4.1 多変量解析による自動分類 
 4.4.2 多クラス分類問題 
 4.4.3 決定木による分類 
 4.4.4 サポートベクターマシン 
 4.4.5 WEKA 
 4.4.6 ディープラーニング 
演習問題 

引用・参考文献 
演習問題解答 
索引 

大淵 康成(オオブチ ヤスナリ)

関連資料(一般)

関連資料一覧

関連リンク

教科書採用者向け 関連資料申込
書籍内の図面データ(pdf)