音声分析合成

音響テクノロジーシリーズ 22

音声分析合成

音声を表現したパラメータから音声波形を生成する信号処理技術を総称して音声分析合成と呼ぶ。理解・研究に必要な知識をまとめた。

ジャンル
発行年月日
2018/08/06
判型
A5 上製
ページ数
272ページ
ISBN
978-4-339-01137-1
音声分析合成
在庫あり

定価

4,400(本体4,000円+税)

カートに入れる

購入案内

  • 内容紹介
  • まえがき
  • 目次
  • 著者紹介

音声を何らかのパラメータとして表現し,表現されたパラメータから音声波形を生成する信号処理技術の総称を音声分析合成と呼ぶ。本書では,音声分析合成システムを理解・研究する際に必要となる知識を習得できるようにまとめた。

音声合成の研究というと,多くの人はテキストを読み上げるtext-to-speech(TTS)の研究を想像するかもしれない。本書のタイトルを音声分析合成としたのは,音声合成というタイトルによって,TTSの技術解説を期待する読者が肩透かしを食うことへの懸念からである。音声分析合成とは,音声をなんらかのパラメータとして表現し,表現されたパラメータから音声波形を生成する信号処理技術の総称である。また,一連の技術を束ねたシステムを音声分析合成システムと呼称する。音声の読み上げや加工においては,音声パラメータの生成や加工により実現するアプローチが幅広く利用されている。一方,近年では,WaveNetのように音声波形そのものを出力対象とする技術が実用化され,音声をパラメータで表現する音声分析合成の重要度は相対的に下がったといえる。本書を執筆しているいまも,TTSに関する研究は日進月歩の進歩によるパラダイムシフトを迎えつつあり,10年後には本書の内容も古典的なものとして扱われるかもしれない。それは音声処理に関する技術のブラックボックス化に繋がるが,音声を扱うための信号処理技術を習得することは,今後も重要な価値があると筆者は信じている。

本書の目標は,これから音声分析合成システムの研究,あるいはシステムを活用した研究をしたい読者に必要となる知識が,この1冊を読むことで一通り習得できることである。音声分析合成システムを構成する信号処理理論については,「高品質音声分析合成に関する信号処理理論の理解」をゴールに定め,そのゴールに必要な数学的知識に限定して紹介する。歴史的に議論を避けることができない伝統的なアルゴリズムは解説するが,さまざまな内容を網羅的に紹介する辞書的な使い方ができる教科書とは位置付けが異なる。本書の想定する具体的な読者層は,大学で学ぶレベルの微分積分や線形代数の知識に加え,ディジタル信号処理を活用した音の信号処理について最低限の知識を習得している大学院生や若手研究者である。

音声分析合成の研究には,信号処理に関する数学的な知識を習得するだけではなく,ときには自分自身で音声を収録することもあり,音声の品質評価法を習得することも不可欠であろう。本書には,高品質な音声を入手する必要に迫られた読者が,最低限必要となる品質で音声を収録する際に助けとなる情報も含むこととした。収録音声に関する条件や収録環境に関する知識は,音声分析や合成時において予期せぬエラーが生じた際に役立つこともある。

本書を読み解くのに必要な数学や,音声収録に関する知識は1章にまとめた。2章では,音声分析合成に特化した音声信号のモデル化と音声分析合成の歴史的な技術を概説する。これらは雑多な内容を広く浅く扱った章であるため,すでに関連知識を有する読者はスキップしてもさしつかえない。3~5章は,2章で説明するボコーダに関連した音声パラメータ群の推定法について,基盤から最先端の理論までを説明する。6章は,これらの理論を計算機上に実装するための注意点についてまとめる。この章の目的は,論文で提案された理論(数式)をそのまま実装しても,実音声の分析において期待する性能が達成できるとは限らないため,実音声を計算機上で分析することを想定した細かな工夫を示すことである。7章では,推定された音声パラメータを加工する事例について紹介する。8章では,提案された音声処理技術の有効性を評価するために必要不可欠な主観評価について,基礎的なものを紹介することとした。

最後に,本書を執筆する機会を与えてくださった日本音響学会音響テクノロジーシリーズ編集委員会の飯田一博委員長,編集委員の北村達也氏をはじめとする委員会の皆様,本書の草稿に対し丁寧にコメントをくださった和歌山大学の河原英紀氏,大学入試センターの内田照久氏に深謝する。また,曜日を問わず自由気ままに執筆することを許してくれた妻に感謝する。

2018年5月 森勢将雅

1. 基礎知識
1.1 本書で共通する数学的知識
 1.1.1 音声波形とスペクトルについて
 1.1.2 スペクトルの振幅,位相
 1.1.3 群遅延
 1.1.4 信号の平均時間と持続時間
 1.1.5 スペクトルを用いた平均時間と持続時間の表現
 1.1.6 不確定性原理
 1.1.7 畳み込み
 1.1.8 ディジタルフィルタ
 1.1.9 z変換によるディジタルフィルタの特性解析
 1.1.10 窓関数による波形の短時間分析とスペクトログラム
 1.1.11 瞬時周波数
1.2 音声の収録
 1.2.1 マイクロフォンによる音声の取り込み
 1.2.2 近接効果
 1.2.3 収録環境の騒音レベル
 1.2.4 収録環境の残響時間
 1.2.5 信号対雑音比(SNR)
1.3 A-D変換
 1.3.1 標本化と量子化
 1.3.2 折り返しひずみ
 1.3.3 高品質な音声分析合成に求められる水準
引用・参考文献

2. 音声のパラメータ表現
2.1 音声の生成メカニズムと音声の分類
 2.1.1 有声音の発声メカニズム
 2.1.2 無声音の発声メカニズム
2.2 音声を構成するパラメータ
 2.2.1 基本周波数
 2.2.2 スペクトル包絡
 2.2.3 非周期性指標
 2.2.4 有声音の定式化
2.3 伝統的な音声分析合成システム
 2.3.1 ボコーダ(非周期性指標を不使用)
 2.3.2 ボコーダ(非周期性指標を使用)
 2.3.3 フェーズボコーダ
 2.3.4 正弦波モデル
2.4 本章のまとめ
引用・参考文献

3. 基本周波数の推定
3.1 古典的な方法
 3.1.1 ゼロ交差法
 3.1.2 自己相関法
 3.1.3 ケプストラム法
 3.1.4 共通する問題点
3.2 精度を高めるための工夫
 3.2.1 相関法の改良
 3.2.2 ゼロ交差法の改良
3.3 実用レベルにある最先端の方法
 3.3.1 基本周波数候補の推定
 3.3.2 基本周波数軌跡の推定
 3.3.3 最終的な軌跡の確定と平滑化
3.4 基本周波数推定法の性能評価
 3.4.1 Electroglottography(EGG)を用いた真値の定義
 3.4.2 評価指標
 3.4.3 基本周波数評価における課題
引用・参考文献

4. スペクトル包絡の推定
4.1 線形予測符号
 4.1.1 問題設定
 4.1.2 最適係数の導出
 4.1.3 LPCの妥当性
 4.1.4 LPCの問題点
4.2 ケプストラム
 4.2.1 ケプストラムによるスペクトル包絡推定
 4.2.2 ケプストラムの問題点
4.3 高品質音声分析合成のための課題の整理
4.4 STRAIGHT
 4.4.1 STRAIGHTで用いる窓関数
 4.4.2 平滑化とスペクトル補償
 4.4.3 スペクトル補償の意味
4.5 分析時刻に非依存なスペクトル包絡推定の前提知識
 4.5.1 スペクトルの離散化
 4.5.2 窓関数により切り出す時刻の影響
 4.5.3 分析時刻に依存した成分の定式化
4.6 TANDEM-STRAIGHT
 4.6.1 TANDEM
 4.6.2 平滑化とスペクトル補償
4.7 CheapTrick
 4.7.1 分析時刻に依存した項の再解釈
 4.7.2 窓関数の設計
 4.7.3 パワースペクトルの変形
 4.7.4 平滑化とスペクトル補償
4.8 スペクトル包絡推定法の性能評価
 4.8.1 対数スペクトルに対するユークリッド距離
 4.8.2 板倉・斎藤距離
 4.8.3 周波数軸上で重み付けされた板倉・斎藤距離
 4.8.4 スペクトル包絡推定評価の課題
引用・参考文献

5. 非周期性指標の推定
5.1 前提となる考え方
 5.1.1 雑音が重畳された音声の定義
 5.1.2 HNR
 5.1.3 非周期性指標推定の目標
5.2 STRAIGHTで用いる推定法
 5.2.1 基本的な考え方
 5.2.2 時間軸の非線形伸縮
 5.2.3 非周期性指標推定
5.3 TANDEM-STRAIGHTで用いる推定法
 5.3.1 基本的な考え方
 5.3.2 非周期性指標推定
5.4 WORLDで用いる推定法
 5.4.1 基本的な考え方
 5.4.2 具体的な推定アルゴリズム
引用・参考文献

6. 高精度に計算するコツ
6.1 窓関数による波形の厳密な切り出し
 6.1.1 窓関数の厳密な設計
 6.1.2 0Hz成分の厳密な除去
6.2 スペクトル包絡推定における0Hz成分の扱い
 6.2.1 0Hz成分が推定結果に与える影響
 6.2.2 0Hz成分の制御
6.3 高精度なスペクトルフィルタリング
 6.3.1 線形補間による矩形窓の畳み込み
 6.3.2 リフタリングを用いた方法
6.4 1サンプル未満の遅延の制御
 6.4.1 サブハーモニックの影響
 6.4.2 微細な遅延の付与
6.5 波形生成時における0Hz成分の除去
 6.5.1 0Hz成分の除去が知覚に与える影響
 6.5.2 適切な0Hz成分の除去
6.6 ボコーダにおける無声音の扱い
 6.6.1 問題の設定
 6.6.2 スペクトル包絡推定・波形生成における無声音の扱い
6.7 瞬時周波数計算における注意点
 6.7.1 窓関数の影響
 6.7.2 瞬時周波数計算における窓関数の差
 6.7.3 発散する時刻の瞬時周波数
引用・参考文献

7. 音声の加工技術
7.1 基本周波数の加工
 7.1.1 基本的な加工
 7.1.2 抑揚の大きさの加工
 7.1.3 基本周波数操作を行うための軸変換
7.2 スペクトル包絡の加工
 7.2.1 加工に関する基本的な考え方
 7.2.2 フィルタリングによるスペクトル包絡の加工
 7.2.3 スペクトル包絡の伸縮による音色の加工
7.3 発話時間の加工
7.4 複数パラメータを組み合わせた加工
 7.4.1 性別の変換
 7.4.2 有声音のささやき声化
 7.4.3 音高錯覚
7.5 音声モーフィング
 7.5.1 時間・周波数軸上のラベル付け
 7.5.2 時間・周波数軸の非線形伸縮
 7.5.3 伸縮された時間周波数表現における加重平均
 7.5.4 モーフィングの拡張
7.6 歌声合成への応用
 7.6.1 歌声の高さに関する単位
 7.6.2 微細構造
 7.6.3 ビブラート
 7.6.4 音高遷移に関する歌唱表現
 7.6.5 歌唱フォルマント
引用・参考文献

8. 音声品質の主観評価方法
8.1 音声分析合成法に関する主観評価のおもな流れ
 8.1.1 目的に基づく評価法の設計
 8.1.2 実験規模の設計
 8.1.3 実験結果の解析
8.2 共通する実験の前処理
 8.2.1 音声の音圧レベルの正規化
 8.2.2 実験刺激のランダム提示
 8.2.3 実験環境の記録
8.3 リファレンスの有無にかかわらず利用できる評価法
 8.3.1 MOS評価
 8.3.2 一対比較法
8.4 リファレンスに対する変化を測る評価法
 8.4.1 DMOS評価
 8.4.2 CMOS評価
引用・参考文献

索引