音声(上)

音響学講座 6

音声(上)

基礎的な音声分析アルゴリズム,音声生成メカニズム,音声合成,雑音除去について解説

ジャンル
発行年月日
2021/09/22
判型
A5
ページ数
324ページ
ISBN
978-4-339-01366-5
音声(上)
在庫あり

定価

4,840(本体4,400円+税)

カートに入れる

電子版を購入

購入案内

  • 内容紹介
  • まえがき
  • 目次
  • レビュー
  • 著者紹介
  • 広告掲載情報

音声の教科書として利用できるように前半では,音声研究の歴史,基礎的な音声分析アルゴリズム,音声生成メカニズムとモデルなどについて詳細に述べた。また後半では,応用研究として音声合成,雑音除去について説明した。

本書は六つの章からなる。
1章「音声と音声研究の歴史」では音声研究の分野への導入部であり,歴史と現状なども含めて簡潔に述べている。
2章「音声波形の特性」では音声信号処理の基礎について,音の高さや音声中に含まれる音韻情報などについて説明している。
3章「音声の生成機構とそのモデル」では人の発声の仕組みについて音声生成の音響メカニズムなど物理的な側面から説明している。またMRIで撮像した頭部断層像も用いて詳細に説明している。
4章「音声の分析」では音声波形の性質に注目した基礎的な音声分析法について説明している。5章「音声合成」では人と機械(ロボット)との情報交換手段として必要となる音声合成について述べている。近年の学習理論および計算機スペックの高性能化に伴い,機械から生成される音声品質は格段と自然性が改善されている。音声処理のみならず言語処理,および音声合成の応用研究,深層学習に基づく音声合成についても述べられている。
6章「音声処理の雑音対策」では実際の環境で音声認識や音声通話を行う際に少なからず問題となる背景雑音,および残響の対処方法について説明している。

近年,インターネットの普及に伴い,ネット上でのコミュニケーション社会が拡大している。とはいえ,やはり人間にとって最も自然なコミュニケーション手段は音声であり,家族や友人,同僚など周囲の人との日常のコミュニケーションの大半を,音声を介して行っているだろう。これまで産業界においても,音声を用いた端末入力サービスなどが多く発表されてきており,音声研究の成果が世の中で活用されている。ただし,その利用環境には制限(条件)があり,まださまざまな課題が残されており,今後の音声研究への期待は大きいだろう。

さて本書では,音声の教科書として利用できるように,前半では,基礎的な音声分析アルゴリズム,音声生成メカニズムなどについても詳細に述べている。また後半では,応用研究として音声合成,雑音除去について説明している。

本書は六つの章からなる。1章では音声研究の分野への導入部であり,歴史と現状なども含めて簡潔に述べている。2章では音声信号処理の基礎について,音の高さや音声中に含まれる音韻情報などについて説明している。3章では人の発声の仕組みについて音声生成の音響メカニズムなど物理的な側面から説明している。またMRIで撮像した頭部断層像も用いて詳細に説明している。4章では音声波形の性質に注目した基礎的な音声分析法について説明している。5章では人と機械(ロボット)との情報交換手段として必要となる音声合成について述べている。近年の学習理論および計算機スペックの高性能化に伴い,機械から生成される音声品質は格段と自然性が改善されている。音声処理のみならず言語処理,および音声合成の応用研究,深層学習に基づく音声合成についても述べられている。6章では実際の環境で音声認識や音声通話を行う際に少なからず問題となる背景雑音,および残響の対処方法について説明している。ここでは特に単一マイクロホンでの処理に焦点を当てており,複数のマイクロホンを用いたマイクロホンアレイ処理については,本シリーズ音響学講座第2巻『電気音響』を参照されたい。また,音声知覚などについては,第5巻『聴覚』も参照されたい。音声認識,音声対話に関しては音響学講座の第7巻『音声(下)』で述べている。

最後に,本書が音声の分析・解析アルゴリズムの理解に役立ち,これからの音声処理の研究発展に少しでも貢献できれば望外の喜びである。

執筆分担は以下のとおりである。
•有木康雄1章,2章,4章
•鏑木時彦3章
•戸田智基5.1節~5.3節
•南角吉彦5.4節,5.5節
•藤本雅清6.1節,付録
•木下慶介6.2節

2021年7月
滝口哲也

1.音声と音声研究の歴史
1.1 音声とは
 1.1.1 人が音声を生成する過程
 1.1.2 音声に対する雑音とひずみ
 1.1.3 人が音声を認識する過程と冗長性
1.2 音声研究の歴史と現状
 1.2.1 機械による音声の認識と生成
 1.2.2 音声の分析合成の歴史と現状
 1.2.3 音声合成の歴史と現状
 1.2.4 音声認識の歴史と現状
1.3 音声研究と関連分野
 1.3.1 音声研究と関連する分野
 1.3.2 音声研究の応用分野
引用・参考文献

2.音声波形の特性
2.1 音声の波形とスペクトル
 2.1.1 音声波形の特徴
 2.1.2 音声スペクトルの特徴
 2.1.3 音声生成モデル
2.2 音韻の種類と特徴
 2.2.1 音韻の種類
 2.2.2 母音の特徴と分類
 2.2.3 子音の特徴と分類
引用・参考文献

3.音声の生成機構とそのモデル
3.1 音源-フィルタ理論:音声生成の基本モデル
 3.1.1 音声コミュニケーションの成り立ち
 3.1.2 音源とフィルタ:音声生成の基本要素
 3.1.3 音声生成過程の線形モデル
 3.1.4 音源-フィルタ理論と音源-フィルタ相互作用
3.2 声道の働きと音響モデル
 3.2.1 人の音声器官
 3.2.2 発話における声道の働き
 3.2.3 声道の音響モデル
 3.2.4 音響感度関数
 3.2.5 声道形状の個人差
3.3 声帯音源のメカニズム
 3.3.1 声帯音源の特徴
 3.3.2 声帯音源の生成:発声のMyoelastic-Aerodynamic理論
 3.3.3 基本周波数の調整と発声時の声帯振動の様子
 3.3.4 音源-フィルタ相互作用が発声に及ぼす影響
 3.3.5 声帯音源の物理モデル
3.4 音声生成の生理学的過程
引用・参考文献

4.音声の分析
4.1 スペクトル分析
 4.1.1 スペクトル分析の目的
 4.1.2 スペクトル分析の方法
 4.1.3 ノンパラメトリックなスペクトル分析
4.2 ケプストラム分析
 4.2.1 準同型分析とケプストラム分析
 4.2.2 ケプストラム分析
 4.2.3 複素ケプストラム分析
 4.2.4 実ケプストラムと複素ケプストラムの関係
 4.2.5 TANDEM-STRAIGHT
4.3 線形予測分析
 4.3.1 線形予測分析の時間領域での定式化
 4.3.2 予測係数の高速推定法
 4.3.3 線形予測分析の最尤推定法による定式化
4.4 PARCOR分析
 4.4.1 PARCOR分析の原理
 4.4.2 PARCOR分析の定式化
 4.4.3 PARCOR分析・合成システムの構成
 4.4.4 PARCOR係数と反射係数の関係
4.5 LSP分析
 4.5.1 LSP分析の原理
 4.5.2 LSP分析の定式化
 4.5.3 LSP音声合成システムの構成
引用・参考文献

5.音声合成
5.1 音声合成の概要
 5.1.1 音声合成の発展の歴史
 5.1.2 人工的に音声を合成するには?
5.2 テキスト音声合成の基本的な仕組み
 5.2.1 基本的な構成
 5.2.2 言語処理部
 5.2.3 音声処理
5.3 波形接続に基づく音声合成
 5.3.1 素片選択アルゴリズム
 5.3.2 コスト関数設計
 5.3.3 音声コーパス設計
 5.3.4 波形接続に基づく音声合成の利点と欠点
5.4 隠れマルコフモデルに基づく音声合成
 5.4.1 隠れマルコフモデル
 5.4.2 音声合成のための要素技術
 5.4.3 柔軟な音声合成
 5.4.4 音質改善手法
5.5 ニューラルネットワークに基づく音声合成
 5.5.1 ニューラルネットワーク
 5.5.2 深層音響モデルに基づく音声合成
 5.5.3 深層波形生成モデルに基づく音声合成
 5.5.4 End-to-End型音声合成
引用・参考文献

6.音声処理の雑音対策
6.1 背景雑音の除去
 6.1.1 雑音環境下での収音
 6.1.2 ウィーナーフィルタ
 6.1.3 スペクトルサブトラクション
 6.1.4 MMSE-STSA
 6.1.5 信号部分空間法
 6.1.6 より発展的な雑音除去法
6.2 残響の除去
 6.2.1 残響とは
 6.2.2 残響除去とは
 6.2.3 種々の残響除去方法
引用・参考文献

付録
A.1 直交原理の証明
 A.1.1 最小二乗推定と擬似逆行列
 A.1.2 直交射影
 A.1.3 直交原理
A.2 複素関数の微分
 A.2.1 微分の定義
 A.2.2 複素関数微分への拡張
引用・参考文献
索引

読者モニターレビュー【 N/M 様(ご専門:総合情報学(情報科学))】

本書は,音響学講座シリーズ(全10巻)の6巻目に位置する書籍で,「音声」(基礎的な音声分析アルゴリズム,音声生成メカニズム,音声合成,雑音除去)についての記述がなされている.なお,私自身『音響学の展開(音響学講座 10)』を先に読んでいる以外の専門的な知識は,ほぼない.

第1章では,音声に関する分野へのイントロダクション(導入)的な内容が述べてある.具体的には,人が音声を生成・認識するとはどういうことで,どういった過程で行われるかという,日常生活においては当たり前ではあるけど,それらについて改めて考えるきっかけにもなると思う.また,どの分野でもはじめて学ぶ際に,その分野がどのような歴史的背景を持って確立されていったかが重要だと個人的には思っており,本書でも音声研究の歴史と現状として,音声インタフェース,音声そのものや,分析・合成・認識の各分野での歴史や研究成果が,数多くの和書・洋書の書籍や論文を基に解説されてある.最後に,音声研究と関連のある分野や,音声研究の応用分野として活用例について解説されている.私自身の専門分野である,情報関連の分野を少し取り上げると,音声を解析する際の数理的に音声を解析したりする方法(アルゴリズム)や,音声のパターン認識をする際にAI(Artificial Intelligence; 人工知能),ディープラーニング(深層学習)など用いて,応用することが可能である.

また,第1章では概論的に紹介されていることは,後ほどの第2章以降で詳しく,文書として解説してあるだけでなく,ときには図解や数式による定義がなされている.

第2章では,音声波形の特性,第3章では,音声の生成機構とそのモデル,第4章では,音声の分析,第5章では,音声合成,第6章では,音声処理の雑音対策など,音声にまつわる各種技術を,論文をベースにしつつ,分かりやすく記述されてある.

さらに,第4章については,本書の内容を発展的に学びたい方のために.『式の導出に関する参考資料』として参考1〜参考26までのPDFファイル(全35ページ)がWebページにアップロードされている.本書の付録として「A.1 直交原理の証明」,「A.2 複素関数の微分」と,このPDF資料は,数理的な意味合いを深く理解する上でも重要だと思われるので,数式を読み解くことにアレルギー反応のない方は是非チャレンジしてみると良いだろう.

最後に,本書は『音声(上)』とあるように,上巻に位置する書籍なので,後に出版される下巻に位置する書籍『音声(下)』では,音声認識,音響モデルとその高度化,言語モデルとその高度化,話者認識,音声対話システムなどが取り上げられる予定である.音声に関する分野について網羅できるだろうと考えられるので,本書だけに留まらず『音声(下)』についても,引き続き読まれることをオススメする.

滝口 哲也(タキグチ テツヤ)

有木 康雄(アリキ ヤスオ)

鏑木 時彦(カブラキ トキヒコ)

戸田 智基(トダ トモキ)

南角 吉彦(ナンカク ヨシヒコ)

藤本 雅清(フジモト マサキヨ)

木下 慶介(キノシタ ケイスケ)

掲載日:2021/08/26

日本音響学会 2021年秋季研究発表会講演論文集広告

「音響学講座」ラインナップ
  1. 基礎音響学
  2. 電気音響
  3. 建築音響
  4. 騒音・振動
  5. 聴覚
  6. 音声(上)
  7. 音声(下)
  8. 超音波
  9. 音楽音響
  10. 音響学の展開
「音響学講座」発刊にあたって

 音響学は,本来物理学の一分野であり,17世紀にはその最先端の学問分野であった。その後,物理学の主流は量子論や宇宙論などに移り,音響学は,広い裾野を持つ分野に変貌していった。音は人間にとって身近な現象であるため,心理的な側面からも音の研究が行われて,現代の音響学に至っている。さらに,近年の計算機関連技術の進展は,音響学にも多くの影響を及ぼした。日本音響学会は,1977年以来,音響工学講座全8巻を刊行し,わが国の音響学の発展に貢献してきたが,近年の急速な技術革新や分野の拡大に対しては,必ずしも追従できていない。このような状況を鑑み,音響学講座全10巻を新たに刊行するものである。

 さて,音響学に関する国際的な学会活動を概観すれば,音響学の物理/心理的な側面で活発な活動を行っているのは,米国音響学会(Acoustical Society of America)であろう。しかしながら,同学会では,信号処理関係の技術ではどちらかというと手薄であり,この分野はIEEEが担っている。また,録音再生の分野では,Audio Engineering Society が活発に活動している。このように,国際的には,複数の学会が分担して音響学を支えている状況である。これに対し,日本音響学会は,単独で音響学全般を扱う特別な学会である。言い換えれば,音響学全体を俯瞰し,これらを体系的に記述する書籍の発行は,日本音響学会ならではの活動ということができよう。

 本講座を編集するにあたり,いくつか留意した点がある。前述のとおり本講座は10巻で構成したが,このうち最初の9巻は,教科書として利用できるよう,ある程度学説的に固まった内容を記述することとした。また,時代の流れに追従できるよう,分野ごとの巻の割り当てを見直した。旧音響工学講座では,共通する基礎の部分を除くと,6つの分野,すなわち電気音響,建築音響,騒音・振動,聴覚と音響心理,音声,超音波から成り立っていたが,そのうち,当時社会問題にもなっていた騒音・振動に2つの巻を割いていた。本講座では,昨今の日本音響学会における研究発表件数などを考慮し,騒音・振動に関する記述を1つの巻にまとめる代わりに,音声に2つの巻を割り当てた。さらに,音響工学講座では扱っていなかった音楽音響を新たに追加すると共に,これからの展開が期待される分野をまとめた第10巻「音響学の展開」を刊行することとし,新しい技術の紹介にも心がけた。

 本講座のような音響学を網羅・俯瞰する書籍は,国際的に見ても希有のものと思われる。本講座が,音響学を学ぶ諸氏の一助となり,また音響学の発展にいささかなりとも貢献できることを,心から願う次第である。

2019年1月

安藤 彰男