フリーソフトを用いた音声処理の実際

石井直樹元NTTアドバンステクノロジ（株）著

音声あるいは音の信号の処理をフリーソフトを使って解説。読者が実施したい処理に適するソフトを選択する指針も与える。

ジャンル

発行年月日: 2018/12/28

判型: B5

ページ数: 208ページ

ISBN: 978-4-339-00916-3

在庫あり

2営業日以内に出荷致します。

定価

3,630円(本体3,300円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
著者紹介
広告掲載情報

「音声工房を用いた音声処理入門」を一新し，音声あるいは音の信号の処理を，無償で入手できるフリーソフトを使って解説。処理の種類や精度，処理結果の表示方法など，読者が実施したい処理に適するソフトを選択する指針も与える。

21世紀に入った頃から，音声処理を応用した技術がわれわれの生活のすみずみに浸透してきている。多くの国民がその恩恵にあずかりながら，気がついていない場合もある。いまでは，機械がその場面・状況に応じた音声を発するのは当たり前のことと捉えている。スマートフォン（スマホ）を含めて携帯電話の音声は，昔の固定電話の音声とはまったく異なる技術で伝えられているが，（気がついている方もいるが）違和感なく使用している。スマホに話しかけて，何か情報を得ているらしい光景を目にするのも増えてきた。

これらの技術は，機器内部のLSI（大規模集積回路）あるいは，あるいはアプリケーション（アプリ）としてメモリの中に隠蔽されており，その内容をうかがい知ることはできない。音響学，音声学，あるいは音声工学は，やや狭い専門分野の学問であり，大学あるいは専門学校ではそれを意図する特定の学生しか履修できない分野になっている。さらに，これら三つの分野はたがいに密接に関連しているが，これらを総合的に学ぶことすら難しいのが現状である（複数学部の講義を聴講し，自分で関連付けせねばならない）。

かたや，コンピュータ関連のハードウェアおよびソフトウェアの進展（変化）は目覚ましく，ひと時代前のものが使用できない，あるいは通用しないこともしばしば経験する。このコンピュータの力を最大限に利用して，音声あるいは音の信号（以下，サウンドと総称しよう）を自由自在に扱う手助けをするのが，本書の狙いである。最新（でなくてもよい）のコンピュータの性能は，処理能力，記憶能力，表示能力のすべての点で，サウンドを扱う上で申し分ない。しかし，それは「しかるべきソフトウェア（アプリ）」が備わっていればの話である。残念なことに，最新のコンピュータを購入しても，それだけでサウンドを扱える範囲は限られている。やりたいサウンド処理に応じたソフトウェアを入手し，それをコンピュータに組み込み，かつそのソフトウェアの扱い方に習熟して初めて，目的とするサウンド処理が可能となる。

従来，サウンド処理のソフトウェアは，特に専門的で複雑な処理をするものは，かなり高額なものが多く，比較的低価格なソフトは実行できる機能や性能が限られていた。しかし，最近は「フリーソフト」と称される，無償で使用することができるソフトウェアで，機能的にも性能的にも高度なものが現れてきた。残念ながらそのようなソフトウェアは欧米の研究者が開発したもので，メニューおよびヘルプは英語で記述されており，ややハードルが高かった。だが，国内の先駆的な大学研究者を中心にこのようなソフトウェアを使いこなして，教材に使う方が増え，日本語の解説ドキュメントも公表されるようになってきた。

筆者は，2002年というWindows MEの時代に『音声工房を用いた音声処理入門』（前著と呼ぶこととする）を出版し，類書もないことから，大学等で教科書，参考書などに採用され，また独習用の教材として利用されて，現在まで増刷を重ねてきた。しかし，執筆から15年以上も経過すると，さすがに内容の古い箇所が目につく。一つはパソコンのオペレーティングシステム（OS）であるWindowsの変遷，二つ目はパソコンでサウンドを扱う環境の変化，三つ目はサウンドを扱うフリーソフトの勃興である。

このような状況を鑑みて，本書『フリーソフトを用いた音声処理の実際』を世に問うこととした。すなわち，前著は「音声工房Pro」というかなり高価なソフトウェアを使用することを想定して，サウンド処理を始めようとする読者を主対象としていた。それに対して，本書は無償で入手できるフリーソフトを使って，サウンド処理の実際を伝授しようとした。フリーソフトの種類によっては，実行できる処理の種類，精度，あるいは処理結果の表示法が異なる場合がある。読者が実施したい処理に適するフリーソフトを選択する指針をも与えている。

サウンドを扱うために用意するパソコンは，最近の機種である必要はない。ただし，モニタ（ディスプレイ）の解像度はXGA（1　024 × 768ドット）以上であるほうが操作しやすい。また，音声データは大きな記憶領域を必要とするので，大きめのハードディスクを備えていることが望ましい。

パソコンのOSは，本書で紹介するフリーソフトを扱うためにはWindows に限る。ただし，最新のWindows 10でなくとも，Windows 8/7で十分である。すでにサポートが終了したWindows XP/Vista が搭載された旧機種でも構わない。

パソコンにフリーソフトを導入するためにインターネット（以下ネット）にアクセスする場合，二つの注意点がある。一つは，コンピュータウィルスが仕組まれたソフトに気をつけることである。そのためには，本書に掲載した，信用できるサイト（窓の杜，Vector，SourceForge，など）からダウンロードすることである（SourceForge には最近悪い報道もあるが）。また，ダウンロードした圧縮ファイルは解凍する前に，ウィルス検査ソフトで確認すること（ただし，ウィルス検査ソフトは，最も高い割合でウィルスが仕組まれたソフトであることを知っておこう）。もう一つは，所望のフリーソフトの案内画面のそばに（より目立つ形で）配置されている有料ソフトのボタン（じつは，広告である）に注意すること。また，所望のフリーソフトを正しく選択した場合でも，（おまけの不要な）別のソフトを合わせてインストールさせようとするのもある。案内文（英語）をしっかり読み，「自己責任」で対処していただきたい。

2018年8月著者

1.　パソコンのサウンド機能
1.1　サウンドデバイス
　1.1.1　サウンドデバイスとは
　1.1.2　サウンドデバイスの中身は
　1.1.3　サウンドデバイスの組込み状況を調べる‒「サウンド」‒
1.2　ノートパソコン
1.3　タブレット型パソコン
　1.3.1　Windowsタブレットのサウンド機能
　1.3.2　サウンド回路の特性
1.4　デスクトップ型パソコン
　1.4.1　デスクトップパソコンのサウンド機能
　1.4.2　内蔵のサウンド回路の性能

2.　パソコン用音響機器
2.1　アナログ音響機器
2.2　パソコン用ディジタル音響機器‒USBオーディオ機器
　2.2.1　USBマイク
　2.2.2　USBDAC
　2.2.3　USBスピーカ（USB DAC内蔵スピーカ）
　2.2.4　USBヘッドセット
　2.2.5　USBオーディオインタフェース
　2.2.6　USBについて
　2.2.7　USB規格
　2.2.8　USB端子
　2.2.9　USBケーブル
2.3　ボイスレコーダ，ディジタル録音機
　2.3.1　ボイスレコーダ
　2.3.2　音声符号化方式
　2.3.3　メモリ容量，録音時間
　2.3.4　マイクロホン
　2.3.5　パソコンとのデータの受け渡し‒USB，μSDHC‒
　2.3.6　ディジタル録音機
2.4　Bluetooth音響機器の利用

3.　Windowsにおけるサウンドの扱い
3.1　Windows 10の場合
3.2　Windows 8/8.1の場合
　3.2.1　サウンドレコーダ‒Windowsストアアプリ‒
　3.2.2　サウンドレコーダ‒デスクトップアプリ‒
3.3　Windows 7の場合

4.　サウンド用フリーソフト
4.1　フリーソフトについて
　4.1.1　フリーソフトの種類
　4.1.2　サウンド用フリーソフト
4.2　SoundEngine Free音声編集フリーソフト
　4.2.1　概要
　4.2.2　SoundEngine Freeの基本操作
　4.2.3　SoundEngine Freeの分析機能
　4.2.4　SoundEngine Freeのエフェクト機能
　4.2.5　評価
4.3　Audacity（A free audio editor and recorder）
　4.3.1　概要
　4.3.2　Audacityの基本操作
　4.3.3　Audacityの分析機能
　4.3.4　Audacityのエフェクト機能
　4.3.5　評価
4.4　WavePad音声編集ソフト
　4.4.1　概要
　4.4.2　WavePadの基本操作
　4.4.3　WavePadの分析機能
　4.4.4　WavePadのエフェクト機能
　4.4.5　WavePadのサンプル音声
　4.4.6　評価
4.5　SFS/WASP，SFSWin
　4.5.1　SFSについて
　4.5.2　SFS/WASP，SFSWinの概要
　4.5.3　SFS/WASPの基本操作
　4.5.4　SFS/WASPの分析機能
　4.5.5　SFSWinの基本操作
　4.5.6　SFSWinの編集機能
　4.5.7　SFSWinの分析機能
　4.5.8　SFSWinのラベル付与機能
　4.5.9　SFSWinの信号音／合成音生成機能
　4.5.10　その他Windows用のソフトウェア
　4.5.11　評価
4.6　Praat
　4.6.1　概要
　4.6.2　Praatの基本操作
　4.6.3　Praatの音声編集機能
　4.6.4　Praatの音声分析機能
　4.6.5　文字表記の付加（Annotation）
　4.6.6　Praatにおける音声変換機能
　4.6.7　Praatにおける変声機能
　4.6.8　Praatの音声合成機能
　4.6.9　評価
4.7　WaveSurfer
　4.7.1　概要
　4.7.2　WaveSurferの基本操作
　4.7.3　WaveSurferの音声編集／変換機能
　4.7.4　WaveSurferの音声分析機能
　4.7.5　文字表記の付加（Transcription）
　4.7.6　評価
4.8　Speech Analyzer
　4.8.1　概要
　4.8.2　Speech Analyzerの基本操作
　4.8.3　Speech Analyzerの音声編集機能
　4.8.4　Speech Analyzerの音声分析機能
　4.8.5　Speech Analyzerのラベリング機能
　4.8.6　Speech Analyzerの特異な機能
　4.8.7　評価
4.9　SASLab Lite
　4.9.1　概要
　4.9.2　SASLab Liteの基本操作
　4.9.3　SASLab Liteの音声編集／変換機能
　4.9.4　SASLab Liteの音声分析機能
　4.9.5　SASLab Liteの信号音作成機能
　4.9.6　SASLab Liteの特異な機能
　4.9.7　評価
4.10　Raven Lite
　4.10.1　概要
　4.10.2　Raven Liteの基本操作
　4.10.3　Raven Liteの音声編集機能
　4.10.4　Raven Liteの音声分析機能
　4.10.5　Raven Liteの特異な機能
　4.10.6　評価
4.11　その他のフリーソフト
　4.11.1　音声工房および音声録聞見
　4.11.2　Sound Analysis Pro 2011
　4.11.3　Wavosaur（Audio Editor with VST Support）
　4.11.4　XMedia Recode（メディアファイル変換ソフト）
　4.11.5　Moo0ボイス録音機（ストリーミング音声録音ソフト）
　4.11.6　恋声
　4.11.7　SoX（Sound eXchange）

5.　音と音声
5.1　音の基本知識
　5.1.1　音
　5.1.2　音の波形
　5.1.3　サウンドソフトにおける波形の表示
5.2　音声の特徴
5.3　音のディジタル化
　5.3.1　ディジタル化とは
　5.3.2　標本化（サンプリング）
　5.3.3　量子化
　5.3.4　ディジタル化に際しての注意
　5.3.5　アナログ信号に復元する際の注意
5.4　音声ディジタル化と音質
　5.4.1　標本化周波数と音質
　5.4.2　量子化ビット数と音質
　5.4.3　過負荷雑音
5.5　音声伝送容量の削減
　5.5.1　モノラル化，狭帯域化
　5.5.2　片方向通信用の音響符号化
　5.5.3　高能率波形符号化法
　5.5.4　WindowsのオーディオCODEC
　5.5.5　高度の音声符号化方式
　5.5.6　音声音響符号化技術
　5.5.7　ロスレス圧縮（可逆圧縮）

6.　サウンド波形の編集
6.1　サウンド波形の表示・観測
　6.1.1　Audacityによる波形表示
　6.1.2　SoundEngineによる波形表示
　6.1.3　Wavosaurによる波形表示
　6.1.4　WavePadによる波形表示
　6.1.5　SFS/WASPによる波形表示
　6.1.6　SFSWinによる波形表示
　6.1.7　Praatによる波形表示
　6.1.8　WaveSurferによる波形表示
　6.1.9　Speech Analyzerによる波形表示
6.2　サウンド波形の操作・編集
　6.2.1　振幅を変える
　6.2.2　音のレベルを合わせる
　6.2.3　音の分割／切貼り／切出し
　6.2.4　音のミキシング
　6.2.5　ステレオ（2チャネル）信号の操作
　6.2.6　反響（エコー）と残響（リバーブ）
6.3　フィルタ
6.4　雑音除去
　6.4.1　雑音区間の除去
　6.4.2　ノッチフィルタ
　6.4.3　残響・反響の除去・軽減
　6.4.4　人声の除去（Vocal Remover）
6.5　発声速度，声の高さ，継続時間の変更
　6.5.1　音声波形の一部を変更する‒継続時間と発声速度を変える‒
　6.5.2　音声データの全体に発声速度と高さを変更‒リサンプリング‒
　6.5.3　声の高さのみを変える‒ピッチシフト‒
6.6　変声，声質変換
　6.6.1　男声⇔女声変換
　6.6.2　ボイスチェンジャ，変声機
　6.6.3　ヘリウムボイス
6.7　信号音の作成
　6.7.1　作成できる信号音の種類
　6.7.2　信号音の成形
　6.7.3　合図音の作成
　6.7.4　複合正弦音の作成

7.　言語音声の特徴と音声分析
7.1　言語音声の特徴
7.2　音声分析とは
　7.2.1　スペクトル分析
　7.2.2　音声生成器官に関する物理量の分析
　7.2.3　その他の分析法
7.3　音声パワーとその時間変化
7.4　基本周波数とその時間変化
7.5　パワースペクトル
7.6　スペクトル包絡（LPCスペクトル）
7.7　パワースペクトルの時間的変化を表示する方法
7.8　スペクトログラム
7.9　フォルマントとその時間変化
　7.9.1　フォルマント軌跡の分析
　7.9.2　フォルマントの表現法
7.10　その他の分析法
　7.10.1　調波性（Harmonicity）
　7.10.2　ケプストラム分析
　7.10.3　声門パルス分析
　7.10.4　点過程分析
7.11　音声分析の応用
　7.11.1　音声符号化
　7.11.2　音声合成
　7.11.3　音声認識

8.　言語音声の波形と特徴量の観測
8.1　言語音声の波形の観測
8.2　母音の波形と特徴量の観測
8.3　子音の波形と特徴量の観測
　8.3.1　無声閉鎖音
　8.3.2　有声閉鎖音
　8.3.3　摩擦音
　8.3.4　鼻音
　8.3.5　半母音
　8.3.6　発声様式の変化
8.4　長音
8.5　連母音
8.6　韻律的特徴
　8.6.1　発話速度
　8.6.2　アクセント
　8.6.3　イントネーション
　8.6.4　リズム
　8.6.5　感情
　8.6.6　個人性

9.　特殊な発声音声の分析
9.1　歌声の分析
　9.1.1　唱歌
　9.1.2　May J.の声
　9.1.3　ホーミー
9.2　いろいろな発声
　9.2.1　ひそひそ声
　9.2.2　だみ声
　9.2.3　しわがれ声（嗄声）
　9.2.4　裏声，ファルセットなど
　9.2.5　腹話術
9.3　動物音声の分析
　9.3.1　哺乳類
　9.3.2　鳥類
　9.3.3　鳥類（キュウカンチョウ）
　9.3.4　蛙（カジカガエル）
　9.3.5　その他

引用・参考文献
索引