メディアテクノロジーシリーズ 9 音源分離・音声認識

メディアテクノロジーシリーズ 9

音源分離・音声認識

大淵康成東京工科大教授博士（情報理工学）編
武田龍阪大准教授博士（情報学）著
高島遼一神戸大准教授博士（工学）著

人間が持つ、音を聞き分け理解する能力をコンピュータで実現。

ジャンル

発行年月日: 2024/11/01

判型: A5

ページ数: 238ページ

ISBN: 978-4-339-01379-5

在庫あり

2営業日以内に出荷致します。

定価

4,180円(本体3,800円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
レビュー
著者紹介
書籍紹介・書評掲載情報
広告掲載情報

【読者対象】
本書は、マイクから取り込んだ音を聞き分け、理解するシステムに興味のある幅広い読者を対象としています。音声そのものを扱う研究に従事する人だけでなく、様々なITシステムの中で音声を活用したいと思っている方にも役立つ内容となっています。

【書籍の特徴】
本書では、様々な音が混ざり合った状態から目的の音声だけを取り出す音源分離技術と、そうして得られた音声の内容を理解する音声認識技術とを扱っています。この二つは異なる技術ですが、音響信号からの特徴抽出や、大量のデータのモデル化の方法など、共通して学ぶべき内容も多く、一冊の書籍にまとめることで、さらに理解しやすくなると考えました。もちろん片方だけでも十分に役立ちますので、必要なところだけを読んでもらっても構いません。また、アルゴリズムを自分で実装するのは大変だという人でも、既存のツールなどを使いこなすための基礎知識が得られるような内容になっています。

【各章について】
1章では、本書で扱う技術の位置づけと、本書の構成を説明しています。
2章では、音声の信号処理や機械学習の基礎的な部分を概説しています。本書で扱う分野の入門的知識として過不足の無い内容になっているはずです。
3章は、音源分離に関する章です。音声認識や音声通話など様々な目的で用いることも考慮に入れ、使用目的や雑音環境、マイク配置などに応じた最適な手法を説明します。
4章は、音声認識に関する章です。基本となる確率モデルの考え方に加えて、近年の主流となっている深層学習を用いたシステムの活用方法についても解説します。
5章では、音源分離と音声認識の両者にまたがる技術を紹介します。どちらか片方の章の続きとして読んでも、あるいは両者のまとめとして読んでも構いません。

【著者からのメッセージ】
近年のAIブームに乗って、音源分離や音声認識の様々なツールやアプリケーションが公開されています。周辺分野の研究者や開発者が、これらを自分のシステムに取り込む機会も多くなっていることでしょう。しかし、扱う音声データの種類や、アプリケーションの形態などにより、AIツールの最適な使い方は変わってきます。様々な目的を持った研究者・開発者の方々が、本書を通じて得られた知識をもとに、最先端の音声処理機能を活用していただければ幸いです。

【キーワード】
音源分離、音声認識、信号処理、機械学習、DNN、マルチチャンネル信号、End-to-Endモデル

人間は，二つの耳に入ってきた音を聞き分け，大事な音だけに注意を向け，そしてそれが人間の声であるなら，話している内容を理解することができる。聞き分けるのはおもに耳の仕事であり，理解するのは脳の仕事であるが，実際には両者はたがいに助け合いながら働いている。本書では，おもに前者の聞き分けの部分を音源分離と呼び，後者の理解の部分を音声認識と呼ぶ。その両者を，人間ではなくコンピュータが実現することを念頭に，最新の研究成果を紹介しつつ，活用のノウハウを伝えていくことが本書の目的である。

音源分離や音声認識の研究の歴史は長く，研究者間の交流も活発に行われてきた。世界の中でも日本の研究コミュニティの存在感が高かったこともあり，日本語で書かれた優れた教科書が数多く出版されてきた。この分野の研究者に聞いてみれば，若い頃の自分を支えてくれた教科書というのがきっとあるだろう。一方，ここ10年ほどの深層学習の急速な発展に伴い，それまでの常識とは異なる手法がつぎつぎと生まれてきた。これからこの分野に挑んでいこうという人には，この時代ならではの新しい教科書が求められているに違いない。

音源分離や音声認識の分野は，アルゴリズムの実装に高度な専門的知識が必要とされるため，他分野の研究者には近寄りがたく見えていた感も否めない。しかし，技術の進歩による性能向上と，インターネットを通じた研究成果の共有文化の広がりにより，状況は大きく変わりつつある。スマートフォンのアプリを作ろうとする人が，インターネットで見つけたライブラリとサンプルプログラムを見ながら，音源分離や音声認識のシステムを実装してしまうような社会が実現しつつある。そんな中で，狭義の音声研究者ではなく，関連分野の多様な研究者に向けた参考書を作りたいという思いから，本書の執筆を企画するに至った。

1章は，本書で扱う技術の位置付けと，本書の構成を示したものである。本書を手に取って購入を迷っている人は，まずは第1章を見て考えてみてほしい。

2章では，音声の信号処理の基本となる知識に加えて，機械学習の基礎的な部分を概説する。3章，4章へ進む前に，これらの内容をしっかりと把握しておいてほしい。

3章は，音源分離に関わる章である。参照信号の有無や使えるマイクの数，分離後の音声の使用目的などにより，最適な手法が変わってくるのが音源分離の特徴だが，本章を読めば，自分の目的に合致した方式を見つけることができるはずである。

4章は，音声認識に関わる章である。音声認識に用いるモデルの学習には大量のデータが必要で，多くの人は学習済みのモデルを利用することになるが，そのモデルがどのように作られているのかを知ることにより，自分の環境にチューニングすることが容易になるであろう。

5章では，音源分離と音声認識の両方にまたがる技術を紹介する。3章の続きとして読んでも，4章の続きとして読んでも，あるいは3章と4章の総合的なまとめとして読んでも有益となる内容が含まれている。

本書は，1，4，5章をおもに高島が，2，3章をおもに武田が担当したが，1，2，5章については両分野で重なるところもあり，議論を重ねて内容をまとめていった。3章と4章は並列した内容であり，どちらかだけを読んでも理解できるようになっている。本書が，さまざまな分野で音声技術の活用を目指す科学者・工学者の一助となれば幸いである。

2024年9月
編者大淵康成

第1章　序論：音源分離・音声認識へのいざない
1.1　音源分離・音声認識とは
1.2　本書でカバーする状況
1.3　本書の構成

第2章　音声信号処理の基本
2.1　データ表現と音源分離・音声認識の入出力
　2.1.1　音響信号データとは
　2.1.2　テキストデータとは
　2.1.3　音源分離や音声認識とは
2.2　機械学習技術を用いたアプローチ
　2.2.1　機械学習とは
　2.2.2　学習・推論フェーズとポイント
　2.2.3　音源分離や音声認識にどう適用するか
　2.2.4　データへの適応：モデルのチューニングや学習・推論の同時実行
2.3　音声信号の伝達モデルと基本的な分析・特徴量
　2.3.1　時間波形と時間周波数成分の可視化
　2.3.2　信号源からマイクへの伝達過程と特徴量
　2.3.3　音声信号の生成過程と特徴量
2.4　ディープニューラルネットワークとは
　2.4.1　ネットワークの構造
　2.4.2　ネットワークの学習
2.5　データの準備・生成
　2.5.1　実収録
　2.5.2　伝達系の再現
　2.5.3　音源データ

第3章　音源分離：音を聞き分ける
3.1　音の聞き分け処理の概要
　3.1.1　応用する際の事前検討
　3.1.2　おもなタスク設定
　3.1.3　音源分離で用いられるおもな評価尺度
3.2　基本的な枠組みと技術
　3.2.1　基本的な処理領域やフロー
　3.2.2　基本的な分離方式
　3.2.3　ディープニューラルネットワークに基づく音源分離
3.3　参照信号を用いる音源分離：適応フィルタ
　3.3.1　基本的な観測モデル
　3.3.2　最小二乗法
　3.3.3　LMS,NLMSおよびRLS
　3.3.4　ディープニューラルネットワークを併用した手法
3.4　モノラル信号に対する音源分離・
　3.4.1　非負値行列分解
　3.4.2　DeMask
　3.4.3　ConvTasNet
　3.4.4　SepFormer
3.5　マルチチャネル信号に対する音源分離
　3.5.1　ビームフォーマ
　3.5.2　ブラインド音源分離：ICA,IVA,ILRMA,fastMNMF
　3.5.3　ディープニューラルネットワークを併用した手法
3.6　音源分離技術の実装例
　3.6.1　エコーキャンセラ：システム音声の除去
　3.6.2　音声強調：音声・非音声雑音から音声の抽出
　3.6.3　音源分離：すべての信号を抽出
　3.6.4　音楽音響信号分析
　3.6.5　事前学習やfine-tuning
3.7　その他のトピック
　3.7.1　Recursive Souce Seapration
　3.7.2　Mixture Invariant Training
　3.7.3　Location-based Training
　3.7.4　Target Sound Extraction
3.8　本章のまとめ

第4章　音声認識：発話内容を認識する
4.1　音声認識の基礎知識
4.2　DNNとHMMによる音声認識
　4.2.1　音響モデルの確率計算とアライメントについて
　4.2.2　隠れマルコフモデル
　4.2.3　DNN-HMMハイブリッドモデル
　4.2.4　辞書および言語モデルを用いた連続音声認識
4.3　End-to-End音声認識
　4.3.1　End-to-End音声認識における認識単位の定義
　4.3.2　Connectionist temporal classification
　4.3.3　RNNトランスデューサ
　4.3.4　Attentionエンコーダ・デコーダモデル
　4.3.5　Transformer
　4.3.6　Conformer
4.4　End-to-End音声認識ツールESPNet
　4.4.1　ツールの導入と使用方法
　4.4.2　CTCとエンコーダ・デコーダ型モデルとの
マルチタスク学習
　4.4.3　評価結果の見方と評価指標
4.5　事前学習済みモデル
　4.5.1　自己教師あり学習
　4.5.2　Whisper
4.6　本章のまとめ

第5章　音源分離と音声認識にまたがる技術
5.1　データ拡張
　5.1.1　波形の伸縮
　5.1.2　雑音重畳とインパルス応答の畳み込み
　5.1.3　SpecAugment
5.2　ダイアリゼーション
　5.2.1　モジュールベース構成
　5.2.2　End-to-End構成
　5.2.3　音源分離とダイアリゼーションの統合
　5.2.4　音声認識とダイアリゼーションの統合
5.3　音声認識と音源分離の統合
　5.3.1　モデルミスマッチ問題
　5.3.2　全体最適化によるアプローチ

引用・参考文献
索引

読者モニターレビュー【 N/M 様（業界・専門分野：総合情報学［情報科学］）】

本書は「メディアテクノロジーシリーズ」の9巻目に位置する書籍である．本巻では「音源分離」と「音声認識」という，音源の中から不要なものを分離させ，必要な音声を認識するための技術についての記述がなされている．
音声認識と言えば，曲名検索「Shazam」や，テレビ番組やCMの音声をアプリに認識させるとポイントが貯まるアプリなどが一般的には有名だろう．

1章では，「音源分離」・「音声認識」とは何か？ということを理解する上で「音源分離」と「音声認識」が日常生活の中でどのような場面で利用されているのかということを改めて考えていくことから始まり，音声認識技術はいつから始まったのかという歴史的背景などの解説がなされている．

2章では，音源・音声を扱う上で重要な専門分野である「信号処理」の基本や，AI（人工知能）技術を学ぶ際におなじみの機械学習（Machine Learning）について，音源分離・音声認識を行う上で必要最低限の解説がなされている．

ここまでで必要となる基本的な知識を学んだ後，音源分離に関する技術を学びたい方は3章を，音声認識に関する技術を学びたい方は4章というように，3章と4章は独立した章構成になっているのが特徴的である．

最後の5章では，3章と4章の両方の分野にまたがる技術についての解説がなされている．

昨今，音声を処理するようなプログラム（ライブラリ・APIなど）の多くがWeb上公開されており，入手自体は容易に行えるが，それをどのように読み解き，組み合わせていいのか分からない初心者（このレビューを執筆している私も含む）に，本書は最適ではないかと個人的には感じた．
また，そういった「音源分離」・「音声認識」に関する，より詳細な専門書・学術論文を読み解くための基礎体力のようなものが本書をしっかりと理解することで身に付くようにも感じた次第である．

レビュー,書籍紹介・書評掲載情報一覧

大淵康成（オオブチヤスナリ）

大学では物理学科に所属し、光物性の研究をしていました。その後、会社に入って情報分野に進み、ニューラルネットワークの研究をするようになりました。始めてみてわかったのですが、ニューラルネットワークの世界では、大学で学んだ統計力学の知識が多いに役立ちました。その後、再度研究分野を変更し、音声認識の研究に携わるようになりました。その頃、音声認識にニューラルネットワークを使うのは、やや時代遅れという感じでしたが、それから15年ぐらいたって、深層学習という言葉とともに、ニューラルネットワークが脚光を浴びる時代が再び訪れました。

2015年に大学に移ってからは、音声認識だけでなく、音響信号処理や音楽情報処理など、音に関わる様々な分野を対象に研究を続けています。自分の住み慣れた分野を離れて新しい分野に進むのは勇気がいりますが、これまでの経験から、様々な研究分野は思いがけないところで繋がっていて、他分野の経験はきっとどこかで役に立つと思っています。

私自身は楽器の演奏は全くできないのですが、研究室には楽器が得意な学生さんも多く、自分の演奏を題材とした研究テーマなども提案してくれます。そういったテーマでも、技術や理論の側から支援できることが沢山あります。もちろん、昔からやっている音声認識の分野でも、まだまだやってみたいテーマはあって、あれやこれやと考えながら楽しい研究生活を送っています。