バイオインフォマティクスシリーズ 3 生物統計

バイオインフォマティクスシリーズ 3

生物統計

浜田道昭早大教授博士（理学）監修
木立尚孝東大准教授博士（理学）・博士（学術）著

データサイエンスを活用した生命研究をするために必要な，統計科学の基礎を解説

ジャンル

発行年月日: 2022/05/27

判型: A5

ページ数: 268ページ

ISBN: 978-4-339-02733-4

在庫あり

2営業日以内に出荷致します。

定価

4,180円(本体3,800円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
レビュー
著者紹介
書籍紹介・書評掲載情報
広告掲載情報

【書籍の特徴】
・生命ビッグデータに対し統計解析を行う際に重要な概念と技法を説明しました。
・紹介する手法の多くに丁寧な数学的導出をつけました。これにより読者が各手法の原理を理解したうえで自信をもって使いこなせるようになることを目指しました。
・生命ビッグデータに対し，仮説検定を用いる際に重要な多重検定補正の概念や，人工知能・機械学習手法を用いる際に重要な過適合の概念については実例を交え詳しく説明しました。

【各章について】
1章：統計解析の目的と確率論の基礎事項を解説。
2章：統計解析で頻繁に用いられる確率分布の具体例を挙げる。
3章：確率論の重要定理である大数の法則と中心極限定理についての解説。
4章：仮説検定や統計的有意性の概念についての詳細な解説。
5章：データ解析の現場で頻繁に用いられる仮説検定手法の具体例を挙げる。
6章：一度に多数の仮説検定を行う際に重要となる多重検定補正の手法について解説。
7章：確率モデル解析の概念について説明し，確率モデルに含まれるパラメータをデータから推定するために用いられる最尤推定法について解説。
8章：データのクラスタ構造を把握するために使われる混合正規分布について導入し，そのパラメータを推定するために使われる期待値最大化法について解説。
9章：説明変数から目的変数を予測する回帰モデルを照会した後，モデルの過適合を避けるために導入される正則化項とベイズ推定法との関連について解説。
10章：生命過程の確率的なゆらぎをモデル化するために有用なマルコフ過程とその平衡分布について実例を挙げながら解説。
11章：計算機を用いたランダムサンプリングの手法と，ランダムサンプリングを用いて，期待値計算や数値積分を行う方法とその原理について解説。
12章：ベイズ推定の事後分布の性質を調べるために有用なマルコフ連鎖モンテカルロ法について解説。
13章：確率過程における到達時刻の概念について解説し，これに付随して現れるいくつかの確率分布を紹介。

【著者からのメッセージ】
生命ビッグデータ解析で重要となる統計解析の基礎概念と手法について解説しました。様々な手法を紹介していますが，それらの原理を丁寧に説明することで，読者が納得して使えるようになることを目指しました。データ解析の現場で役立てていただければ幸いです。

【キーワード】
統計解析，確率変数，大数の法則，中心極限定理，仮説検定，P値，多重検定補正，確率モデル，最尤推定法，混合正規分布，期待値最大化法，回帰分析，過適合，ベイズ推定，確率過程，マルコフ過程，ランダムサンプリング，マルコフ連鎖モンテカルロ法，到達時刻

DNAの塩基の並びを決定するDNAシークエンサーの高速化など，測定技術の飛躍的な進歩により，生命現象に関する情報は爆発的に増大している。例えば典型的なDNAシークエンシング実験では，一度の実験で100文字程度のA，C，G，Tからなる文字列が数千万本出力される。人間の目では，一生をかけてもこのようなデータを見尽くすことはできず，そこにどのような生物学的情報が含まれているかを推測することも困難である。

したがってこのような膨大なデータの解析には，計算機を効率的に活用してデータが持つ特徴やパターンを抽出するデータサイエンスの手法が必要となる。データサイエンスを用いた解析をするためには，計算機の仕組み，プログラミング言語，統計科学，機械学習，人工知能など，さまざまな分野の知識が必要とされる。中でも統計科学は，測定データのランダム性の特徴を把握し，おのおののデータに対し適切な解析手法を選択するための強力な概念と方法を提供する。本書では，データサイエンスを活用した生命研究をするために必要な統計科学の基礎を解説する。

本書の特徴の一つは，紹介する解析手法の多くに数式を用いた導出をつけたことである。すでにある統計解析の書籍は，手法の使い方は説明しても，その数学的導出については省略することが多い。例えばt検定の使い方を説明する書籍は多くあるが，t検定統計量が帰無仮説のもとでどうしてスチューデントのt分布に従うのかを解説したものはあまりない。本書は，そのような指南本に物足りなさを感じる読者が各手法の由来を理解し，自信を持って使えるようになることを目標とした。

本書のもう一つの特徴は，仮説検定など20世紀前半までに成立した古典的統計解析手法と，ベイズ統計やマルコフ連鎖モンテカルロ法など20世紀後半から発展してきた比較的新しい解析手法を同程度の分量で記述したことである。生命データ解析ではどちらの手法も頻繁に使われることが理由だが，これにより統計科学の多様な背景思想を統一的に理解する助けになるのではないかと期待している。さらに本書では，生命データの解析で頻繁に現れる超高次元データに仮説検定を適用するときに重要となる多重検定補正の概念や，機械学習や人工知能技術における重要概念である過適合現象についても具体例を交えて詳しく解説した。

本書は，大学教養課程程度の線形代数と微積分の基礎知識がある読者を想定している。具体例の説明では生命科学の用語を用いることもあるが，解説する手法は生命データ解析に限らず一般のデータサイエンスで使えるものであり，生命科学の知識がなくとも理解できると考えている。

本書は多くの方の支援と助力により完成することができました。本書の執筆を勧めていただいた早稲田大学の浜田道昭先生とコロナ社に感謝します。また，早稲田大学の福永津嵩先生は査読の段階で有益なコメントをしてくれました。また，筆者の主宰する研究室の大学院生と東京大学理学部生物情報科学科の学生からは，本書の元となった生物統計論の講義に際し多くの有益なコメントをもらいました。最後に，いつも支えてくれた両親と，励ましと癒やしを与えてくれた妻と息子に感謝します。

2022年3月
木立尚孝

1.　統計解析の目的と確率空間
1.1　確率的現象
1.2　統計解析の目的と限界
1.3　確率空間の定義
1.4　確率空間の例
1.5　確率変数
1.6　確率変数の例
1.7　確率変数とランダムサンプリングの解釈
1.8　確率分布関数と確率密度関数
1.9　確率分布の表記
1.10　複数の確率変数の同時確率分布
1.10.1　同時確率分布
1.10.2　周辺分布
1.10.3　条件付き確率分布
1.10.4　統計的に独立な確率変数
1.11　期待値
1.12　指示関数
1.13　分散と共分散
1.14　相関係数
1.15　サンプル値からの推定
1.16　特性関数
1.17　カルバック・ライブラー情報量

2.　確率分布の具体例
2.1　ベルヌーイ分布
2.2　二項分布
2.3　カテゴリカル分布
2.4　多項分布
2.5　1変数正規分布
2.6　ガンマ分布
2.7　多変数正規分布
2.8　一様分布
2.9　退化分布
2.10　ディラックのデルタ関数
2.11　経験分布

3.　大数の法則と中心極限定理
3.1　観測データの頻度分布
3.2　標本平均が従う確率分布
3.3　大数の法則
3.4　大数の法則の例
3.5　大数の法則の極限へ近づく速さ
3.6　中心極限定理
3.7　中心極限定理の例

4.　仮説検定とP値
4.1　仮説検定の概念
4.2　仮説検定の手順
4.3　P値
4.4　経験分布を用いた仮説検定
4.5　統計的有意性の解釈

5.　仮説検定の具体例
5.1　二項検定
5.2　フィッシャーの正確確率検定
5.3　x^2検定とx^2分布
5.4　x^2適合度検定
5.5　x^2独立性検定
5.6　x^2適合度検定の導出
5.7　t検定
5.8　スチューデントのt分布の導出
5.9　マン・ホイットニーのU検定
5.10　コルモゴロフ・スミルノフ検定

6.　多重検定補正とfalse discovery rate
6.1　多重検定補正の必要性
6.2　ボンフェローニ補正
6.3　false discovery rate
6.4　Benjamini-Hochberg法
6.5　quantile-quantileプロットと順序統計量
6.6　Benjamini-Hochberg法の導出
6.7　Benjamini-Yekutieli法
6.8　Storey法

7.　確率モデル解析と最尤推定法
7.1　仮説検定の問題と確率モデル解析
7.2　尤度
7.3　最尤推定法
7.4　最尤推定法の例
7.5　最尤推定量の漸近的性質
7.6　モデル分布の同一性とヘッセ行列

8.　混合正規分布と期待値最大化法
8.1　混合正規分布
8.2　期待値最大化法の原理
8.3　期待値最大化法の例
8.4　交差検証による成分数の決定

9.　回帰モデルの正則化とベイズ推定
9.1　多項式回帰と最小2乗法
9.2　多項式回帰の確率モデル
9.3　過適合
9.4　正則化最小2乗法
9.5　ベイズ推定
9.6　正則化最小2乗法の確率モデルによる解釈

10.　マルコフ過程と平衡分布
10.1　確率過程の定義
10.2　マルコフ過程
10.3　遷移確率行列の性質
10.4　生成消滅過程
10.5　マルコフ鎖のランダムサンプリング
10.6　P^nの漸近的振る舞いの例
10.7　平衡分布
10.8　平衡分布からのランダムサンプリング
10.9　連続状態マルコフ過程の平衡分布
10.10　連続状態マルコフ過程の例

11.　ランダムサンプリングと数値積分
11.1　ランダムサンプリングと乱数生成法
11.2　線形合同法
11.3　確率分布関数からのランダムサンプリング
11.4　棄却法によるランダムサンプリング
11.5　確率変数の変数変換を用いる方法
11.6　期待値計算と数値積分計算

12.　事後分布とマルコフ連鎖モンテカルロ法
12.1　事後分布からのランダムサンプリング
12.2　メトロポリス・ヘイスティングス法
12.3　マルコフ連鎖モンテカルロ法の例
12.4　期待値計算と有効サンプルサイズ
12.5　提案分布のパラメータ調節の例
12.6　ギブスサンプリング
12.7　ギブスサンプリングの例

13.　到達時刻とポアソン過程
13.1　到達時刻の定義
13.2　ベルヌーイ過程の例
13.3　幾何分布
13.4　指数分布
13.5　指数分布の無記憶性
13.6　無記憶性の証明
13.7　ポアソン過程

付録
A.1　集合と写像
A.2　ベクトル空間
A.3　行列
A.4　微分と積分
A.5　関数論
引用・参考文献
索引

読者モニターレビュー【 N/M 様（ご専門：総合情報学（情報科学））】

本書は，バイオインフォマティクスシリーズの３シリーズ目の書籍であり，「（応用）統計学」の中でも特に「生物統計」という分野についての記述がなされている．

私自身，統計学・確率論等の基礎を身に着けたいという理由から本レビュ企画に応募したが，最初に読む書籍としては，難解であったのが正直な感想である．まずは，統計学・確率論のイメージが掴める基礎的な別の書籍で１章〜５章ぐらいの内容をしっかりとイメージを付けてから，本書にチャレンジする方がいいのでは，とまずは思った次第である．

先ほど述べたように，私自身，統計学・確率論，その他数学的な知識はほぼない（情報科学の分野を学ぶ際に，条件付き確率，相関係数等の統計学・確率論の用語を見聞きした程度）に等しい状態であるのと，生物学の分野ということで，専門からもかなりかけ離れているため，詳細なレビュは困難なことを先にお断りしておく．その上で，気になった点や内容の概略を中心に紹介していく形を取っていく．

本書を読むにあたり，ほぼすべての箇所で数式による導出が基本となっているので，数式に苦手意識のあるレビュしている私のような方は少し注意が必要であるが，最初のうちは数式の導出過程も大事だが，各種紹介されている統計解析手法を理解することから始めてみてはどうだろうか（後で別の書籍で数学をしっかり学習して，数理的な意味合いを理解する努力は必要だが・・・）．

内容としては，統計解析の目的から始まり，ベルヌーイ分布，二項分布等の各種確率分布，大数の法則，中心極限定理，仮説検定，マルコフ過程，ポアソン過程等の統計・確率分野でよく聞く各種用語が，かなり詳しく取り上げられている．

8章〜13章では，実際に解析する際の概念を詳しく取り上げているだけではなく，プログラム風の疑似コードを用いて，アルゴリズム（算法；ある問題に対して，正解を引き出すための一定の手続きまたは思考方法）としても解説されている．これをベースにデータ解析が得意なプログラミング言語（PythonやR言語等）にアルゴリズムを落とし込むことで，データ解析が容易にできるのではないだろうか（もしかすると既に，実装されている言語もあるかもしれない）．

ところで，本書の著者の所属先をよく見てみると，早稲田大学，東京大学の教授をされている方々ということが，一番驚かされた次第である．東京大学の講義「生物統計論」がベースになっているみたいなので，高偏差値の大学の講義とはこういった難易度であるということも，本書を通じて垣間見ることができたのも興味深かった．

最後に，内容が定着するような演習問題のようなものも数問あれば，より理解がより深まるようにも思えた．また，引用・参考文献には統計学の基本的な書籍の紹介もあると便利だとも思った．本書を超える内容で，興味のある分野については，更に深く調べてみると面白いだろう．特に，バイオインフォマティクスシリーズの別の書籍等で学ぶことにより，本書で取り上げられたテーマを深く学ぶことができるだろうと思われる．

読者モニターレビュー【 tom 様（ご専門：生命医科学・分子遺伝学）】

当書は特にオミクス解析で頻繁に用いられる統計的解析手法の数理学的背景を、数式を用いて導出し詳説している。内容を読み解くにあたって、微積分学や線形代数学の知識が必須である。前半部では確率論の基礎と確率分布の具体例、大数の法則と中心極限定理から始まり(１〜３章)、仮説検定と具体例及び多重検定補正を扱っている。
例えばゲノムワイド関連解析(GWAS)ではp値を用いてSNPの統計的有意性を判断するが、当書の４〜６章を読み進めることで、GWASで用いられる仮説検定や多重検定補正が何を行っているかを理解することができる。後半部（７章〜）からは確率モデル解析の概念を詳説し、さらに疑似コードを用いて、確率分布からランダムサンプリングするアルゴリズムを解説している。内容は高度なものであるが、生命ビッグデータを用いて確率モデルを実装するなどの解析をする際には必須となる理論を網羅している。コンパクトにまとまっているが、読み応えのある一冊である。

amazonレビュー

レビュー,書籍紹介・書評掲載情報一覧

浜田道昭（ハマダミチアキ）

早稲田大学理工学術院教授

2002年東北大学大学院理学研究科数学専攻修士課程修了
2009年東京工業大学大学院総合理工学研究科知能システム科学専攻博士後期課程修了（社会人博士），博士（理学）

（株）富士総合研究所研究員，東京大学大学院新領域創成科学研究科特任准教授，早稲田大学理工学術院准教授を経て，2018年より現職．

バイオインフォマティクス全般，特に，生物の配列情報を解析するための情報技術の開発とそれらの医学・薬学分野への応用研究を行っている．近年は，タンパク質に翻訳されない天然のRNAであるノンコーディングRNAや人工のRNAを薬とする核酸医薬などを対象にした「RNA情報学」の研究に注力をしている．

木立尚孝（キリュウヒサノリ）

東京大学　大学院新領域創成科学研究科　准教授

1997年　京都大学理学部卒業
2004年　学術博士（東京大学　大学院総合文化研究科）
2007年　理学博士（奈良先端科学技術大学院大学　情報科学研究科）
2005年〜2009年　産業技術総合研究所特別研究員
2009年より現職。

バイオインフォマティクス，特に人工知能や機械学習の手法を用いた，生命過程の数理モデリング技術に関する研究を行っています。