音源分離・音声認識

メディアテクノロジーシリーズ 9

音源分離・音声認識

人間が持つ、音を聞き分け理解する能力をコンピュータで実現。

  • 口絵
ジャンル
発行予定日
2024/10/上旬
判型
A5
予定ページ数
234ページ
ISBN
978-4-339-01379-5
音源分離・音声認識
近刊

購入案内

  • 内容紹介
  • まえがき
  • 目次
  • 著者紹介

人間は音を聞き分け,大事な音だけを理解する能力を持つ。技術の進歩に伴い,この能力をコンピュータで実現することが可能になりつつある。本書は音声に関わる多様な分野の研究者に向け,音声技術活用のノウハウを解説する。

☆発行前情報のため,一部変更となる場合がございます

人間は,二つの耳に入ってきた音を聞き分け,大事な音だけに注意を向け,そしてそれが人間の声であるなら,話している内容を理解することができる.聞き分けるのは主に耳の仕事であり,理解するのは脳の仕事であるが,実際には両者は互いに助け合いながら働いている.本書では,主に前者の聞き分けの部分を音源分離と呼び,後者の理解の部分を音声認識と呼ぶ.その両者を,人間ではなくコンピュータが実現することを念頭に,最新の研究成果を紹介しつつ,活用のノウハウを伝えていくことが本書の目的である.

音源分離や音声認識の研究の歴史は長く,研究者間の交流も活発に行われてきた.世界の中でも日本の研究コミュニティの存在感が高かったこともあり,日本語で書かれた優れた教科書が数多く出版されてきた.この分野の研究者に聞いてみれば,若い頃の自分を支えてくれた教科書というのがきっとあるだろう.一方,ここ10年ほどの深層学習の急速な発展に伴い,それまでの常識とは異なる手法が次々と生まれてきた.これからこの分野に挑んでいこうという人には,この時代ならではの新しい教科書が求められているに違いない.

音源分離や音声認識の分野は,アルゴリズムの実装に高度な専門的知識が必要とされるため,他分野の研究者には近寄りがたく見えていた感も否めない.しかし,技術の進歩による性能向上と,インターネットを通じた研究成果の共有文化の広がりにより,状況は大きく変わりつつある.スマートフォンのアプリを作ろうとする人が,インターネットで見つけたライブラリとサンプルプログラムを見ながら,音源分離や音声認識のシステムを実装してしまうような社会が実現しつつある.そんな中で,狭義の音声研究者ではなく,関連分野の多様な研究者に向けた参考書を作りたいという思いから,本書の執筆を企画するに至った.

1章は,本書で扱う技術の位置づけと,本書の構成を示したものである.本書を手に取って購入を迷っている人は,まずは第1章を見て考えてみて欲しい.

2章では,音声の信号処理の基本となる知識に加えて,機械学習の基礎的な部分を概説する.3章,4章へ進む前に,これらの内容をしっかりと把握しておいて欲しい.

3章は,音源分離に関わる章である.参照信号の有無や使えるマイクの数,分離後の音声の使用目的などにより,最適な手法が変わってくるのが音源分離の特徴だが,本章を読めば,自分の目的に合致した方式を見つけることができるはずである.

4章は,音声認識に関わる章である.音声認識に用いるモデルの学習には大量のデータが必要で,多くの人は学習済のモデルを利用することになるが,そのモデルがどのように作られているのかを知ることにより,自分の環境にチューニングすることが容易になるであろう.

5章では,音源分離と音声認識の両方にまたがる技術を紹介する.3章の続きとして読んでも,4章の続きとして読んでも,あるいは3章と4章の総合的なまとめとして読んでも有益となる内容が含まれている.

本書は,1,4,5章を主に高島が,2,3章を主に武田が担当したが,1,2,5章については両分野で重なるところもあり,議論を重ねて内容をまとめていった.3章と4章は並列した内容であり,どちらかだけを読んでも理解できるようになっている.本書が,様々な分野で音声技術の活用を目指す科学者・工学者の一助となれば幸いである.

2024年5月
大淵康成

☆発行前情報のため,一部変更となる場合がございます

1. 序論:音源分離・音声認識へのいざない
1.1 音源分離・音声認識とは
1.2 本書でカバーする状況
1.3 本書の構成

2. 音声信号処理の基本
2.1 データ表現と音源分離・音声認識の入出力
 2.1.1 音響信号データとは
 2.1.2 テキストデータとは
 2.1.3 音源分離や音声認識とは
2.2 機械学習技術を用いたアプローチ
 2.2.1 機械学習とは
 2.2.2 学習・推論フェーズとポイント
 2.2.3 音源分離や音声認識にどう適用するか
 2.2.4 データへの適応:モデルのチューニングや学習・推論の同時実行
2.3 音声信号の伝達モデルと基本的な分析・特徴量
 2.3.1 時間波形と時間周波数成分の可視化
 2.3.2 信号源からマイクへの伝達過程と特徴量
 2.3.3 音声信号の生成過程と特徴量
2.4 ディープニューラルネットワークとは
 2.4.1 ネットワークの構造
 2.4.2 ネットワークの学習
2.5 データの準備・生成
 2.5.1 実際に録音
 2.5.2 伝達系の再現
 2.5.3 音源データ

3. 音源分離~音を聞き分ける~
3.1 音の聞き分け処理の概要
 3.1.1 応用する際の事前検討
 3.1.2 主なタスク設定
 3.1.3 音源分離で用いられる主な評価尺度
3.2 基本的な枠組みと技術
 3.2.1 基本的な処理領域やフロー
 3.2.2 基本的な分離方式
 3.2.3 ディープニューラルネットワークに基づく音源分離
3.3 参照信号を用いる音源分離:適応フィルタ
 3.3.1 基本的な観測モデル
 3.3.2 最小二乗法
 3.3.3 LMS,NLMSおよびRLS
 3.3.4 ディープニューラルネットワークを併用した手法
3.4 モノラル信号に対する音源分離
 3.4.1 非負値行列分解
 3.4.2 DeMask
 3.4.3 ConvTasNet
 3.4.4 SepFormer
3.5 マルチチャネル信号に対する音源分離
 3.5.1 ビームフォーマ
 3.5.2 ブラインド音源分離:ICA,IVA,ILRMA,fastMNMF
 3.5.3 ディープニューラルネットワークを併用した手法
3.6 音源分離技術の実装例
 3.6.1 エコーキャンセラ-システム音声の除去
 3.6.2 音声強調-音声-非音声雑音から音声の抽出
 3.6.3 音源分離-すべての信号を抽出
 3.6.4 音楽音響信号分析
 3.6.5 事前学習やFine-tuning.
3.7 その他のトピック
 3.7.1 Recursive Souce Seapration
 3.7.2 Mixture Invariant Training
 3.7.3 Location-based Training
 3.7.4 Target Sound Exctraction
3.8 本章のまとめ

4. 音声認識:発話内容を認識する
4.1 音声認識の基礎知識
4.2 DNNとHMMによる音声認識
 4.2.1 音響モデルの確率計算とアライメントについて
 4.2.2 隠れマルコフモデル
 4.2.3 DNN-HMMハイブリッドモデル
 4.2.4 辞書および言語モデルを用いた連続音声認識
4.3 End-to-End音声認識
 4.3.1 End-to-End音声認識における認識単位の定義
 4.3.2 Connectionist temporal classification
 4.3.3 RNNトランスデューサ
 4.3.4 Attentionエンコーダデコーダモデル
 4.3.5 Transformer
 4.3.6 Conformer
4.4 End-to-end音声認識ツールESPNet
 4.4.1 ツールの導入と使用方法
 4.4.2 CTCとエンコーダデコーダ型モデルとのマルチタスク学習
 4.4.3 評価結果の見方と評価指標
4.5 事前学習済みモデル
 4.5.1 自己教師あり学習
 4.5.2 Whisper
4.6 本章のまとめ

5. 音源分離と音声認識にまたがる技術
5.1 データ拡張
 5.1.1 波形の伸縮
 5.1.2 雑音重畳とインパルス応答の畳み込み
 5.1.3 SpecAugment
5.2 ダイアリゼーション
 5.2.1 モジュールベース構成
 5.2.2 End-to-End構成
 5.2.3 音源分離とダイアリゼーションの統合
 5.2.4 音声認識とダイアリゼーションの統合
5.3 音声認識と音源分離の統合
 5.3.1 モデルミスマッチ問題
 5.3.2 全体最適化によるアプローチ

引用・参考文献

大淵 康成

大淵 康成(オオブチ ヤスナリ)

大学では物理学科に所属し、光物性の研究をしていました。その後、会社に入って情報分野に進み、ニューラルネットワークの研究をするようになりました。始めてみてわかったのですが、ニューラルネットワークの世界では、大学で学んだ統計力学の知識が多いに役立ちました。その後、再度研究分野を変更し、音声認識の研究に携わるようになりました。その頃、音声認識にニューラルネットワークを使うのは、やや時代遅れという感じでしたが、それから15年ぐらいたって、深層学習という言葉とともに、ニューラルネットワークが脚光を浴びる時代が再び訪れました。

2015年に大学に移ってからは、音声認識だけでなく、音響信号処理や音楽情報処理など、音に関わる様々な分野を対象に研究を続けています。自分の住み慣れた分野を離れて新しい分野に進むのは勇気がいりますが、これまでの経験から、様々な研究分野は思いがけないところで繋がっていて、他分野の経験はきっとどこかで役に立つと思っています。

私自身は楽器の演奏は全くできないのですが、研究室には楽器が得意な学生さんも多く、自分の演奏を題材とした研究テーマなども提案してくれます。そういったテーマでも、技術や理論の側から支援できることが沢山あります。もちろん、昔からやっている音声認識の分野でも、まだまだやってみたいテーマはあって、あれやこれやと考えながら楽しい研究生活を送っています。

武田 龍(タケダ リュウ)

高島 遼一(タカシマ リョウイチ)

★特設サイトはこちらから★

各書籍の詳細情報や今後の刊行予定,関連書籍などがご覧いただけます。

https://www.coronasha.co.jp/mediatech/