バイオインフォマティクスシリーズ 5 ゲノム配列情報解析

バイオインフォマティクスシリーズ 5

ゲノム配列情報解析

浜田道昭早大教授博士（理学）監修
三澤計治横浜市立大学大学院医学系研究科准教授博士（理学）著

生物学の知識とプログラミングの技術を同時に学べる，ゲノム配列情報解析の入門書

ジャンル

発行年月日: 2024/08/15

判型: A5

ページ数: 304ページ

ISBN: 978-4-339-02735-8

在庫あり

2営業日以内に出荷致します。

定価

5,170円(本体4,700円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
レビュー
著者紹介
書籍紹介・書評掲載情報
広告掲載情報

【書籍の特徴】
・ゲノム配列情報解析に必要な，生物学の知識とプログラミングの技術を同時に記載し，プログラミング言語Pythonの解説も加えた。本書で紹介した手法や解析などの一部は，Pythonを用いることで体験することができる。
・実際の解析の現場で参照するため，ゲノム解析で使われるデータファイルのフォーマットを付録にて解説した。

【各章について】
1章：コンピューターの仕組みを概説し，ゲノム解析に必要な計算機資源の概略を述べる。また，DNAまたはアミノ酸配列をデータベースからダウンロードして，実際に扱う。さらに，圧縮とハッシュやPythonの利用方法，計算量の評価方法についても解説する。
2章：ゲノム配列解析のスタートとなる，DNA配列決定法について解説する。DNA配列決定はDNA 分子の特徴を巧みに利用しているため，前半でDNA・RNAの分子の性質を取り上げ，後半で文字列検索のアルゴリズムを紹介し，ゲノム配列を復元する方法を扱う。
3章：ペアワイズアラインメントについて解説する。その際に必要となる，分子進化学やアミノ酸配列と翻訳についても取り上げ，ペアワイズアラインメントのアプリケーションの実行方法も解説する。アラインメントで広く使われているMAFFTのアルゴリズムも解説する。
4章：解析対象の配列が複数ある場合の，分子系統樹推定方法と，マルチプルアラインメントを解説する。進化距離推定法，分子系統樹再構築法，多重配列アラインメント推定法の順に，さらに分子系統樹を多重配列アラインメント推定に活用する方法も解説する。最後に，反復改善法を解説する。
5章：ゲノム配列情報の意味を解読する方法をいくつか紹介する。特に，ホモロジーサーチ法を解説し，その手法で広く使われているソフトウエアBLASTについて使い方も含めて紹介する。また，遺伝子配列に対し，機能などの情報をつけていくアノテーションには，生物学情報データベースが活用でき，そのデータベースを簡単に紹介する。最後に，実験をもとにした機能解析とのかかわりも紹介する。

【著者からのメッセージ】
本書では、最新のゲノム解析技術について詳しく解説しました。ゲノム解析手法を学びたい生物学・医学の学生と研究者はもちろん、ゲノム解析分野に取り組みたい情報科学の学生・専門家にも役立つ内容となっています。

【キーワード】
DNA，RNA，アミノ酸，タンパク質，DNA配列決定，PCR，マッピング，アセンブリ，アラインメント，動的計画法，MAFFT，ゲノムワイド関連解析(GWAS) ，ホモロジーサーチ，集団遺伝学，分子進化学，系統樹，新型コロナウイルス，突然変異，BLAST，Python

ゲノムとは，ある生物の持つすべての遺伝情報を意味する。ゲノム解析学は，ゲノム配列の意味を解読することにより生命の謎に迫る学問である。そしてゲノム配列情報解析は，近年，さまざまな領域で用いられている。ヒトゲノム配列の情報を利用し，個人個人の体質に合わせた治療法を選択する個別化医療も始まっている。また，病原体の研究にも活用され，疾患の原因も次々に明らかになってきている。ウイルスゲノム解析は，変異型の発見や感染ルートの解明に応用されている。さらに，感染予防の現場では，ゲノム配列決定と縁が深いPCR技術が使われ続けている。生物学の世界では，ゲノム情報を生物の同定に使う。研究室ではなく，フィールドでゲノム配列決定をする研究が始まっている。このような背景から，本書を執筆する運びとなった。

本書の特色は，ゲノム配列情報解析に必要な，生物学の知識とプログラミングの技術を同時に記載しているところにある。プログラミング言語Pythonの解説も加えた。本書は五つの章と付録から構成されている。1章では，コンピューターがデータ処理を行う方法を紹介する。2章では，DNA配列決定法について解説し，その際に必要となるDNA・RNAの分子の性質を取り上げる。また，文字列検索のアルゴリズムを紹介し，ゲノム配列を復元する方法を扱う。3章では，ペアワイズアラインメントについて解説する。その際に必要となる，分子進化学やアミノ酸配列と翻訳についてもこの章で取り上げる。4章では，解析対象の配列が複数ある場合の，分子系統樹推定方法とマルチプルアラインメントを解説する。5章では，ゲノム配列情報の意味を解読する方法をいくつか紹介し，特に，ホモロジーサーチ法を解説する。

本書では実用面も考慮した。コンピューターおよび統計学の用語は，日本産業規格に従った。また，特に断りのないときは，コンピューターのコマンドをタイプライター体で，数式をイタリック体で記載し，ローマン体の普通の英単語と区別した。ゲノム解析の現場で使われているソフトウエアの利用法も掲載した。本書で紹介した手法や解析などの一部は，Pythonを用いることで体験することができ，コードはhttps://github.com/kazumisawa/genome-infomation-analysisで利用可能である。また，実際の解析の現場で参照するため，ゲノム解析で使われるデータファイルのフォーマットを付録にて解説した。特に断りがない場合，計算にはApple M1を搭載したMacBook Airを用いた。

ゲノム解析はしばしば地図の作成に例えられる。2章から4章までで紹介する内容は，測量や航空機撮影などで，正確な図面を作ることに似ている。1章は必要な道具の解説に相当している。そして5章の内容は，建物の機能や名称を書き込んでいく作業に対応する。

本書は多くの方の支援と助力に支えられた。大阪大学の加藤和貴博士には，アラインメントの仕組みを教示いただいただけでなく，本書執筆の最初から最後まで継続的な励ましをいただいた。また，北海道大学の長田直樹博士には有益なコメントをいただき，大槻涼博士にはシークエンサーの情報をいただいた。横浜市立大学の松本直通教授と，関西医科大学の日笠幸一郎研究所教授には，執筆のご支援をいただいた。この場を借りて御礼申し上げたい。

著者がPennsylvania State Universityにいたときにお世話になった根井正利先生が本書を執筆中に亡くなった。根井正利先生の偉大な業績と研究への情熱から著者が学んだことは計り知れない。根井正利先生に本書を読んでいただく著者の夢は叶わなかったが，この場を借りて御礼を申し上げたい。

最後に，監修の早稲田大学の浜田道昭先生とコロナ社に感謝する。この教科書が，読者の役に立ち，ゲノム解析研究のさらなる発展に貢献できれば幸いである。

2024年6月
三澤計治

1.　文字とコンピューター
1.1　コンピューターの仕組み
　1.1.1　ハードウエア
　1.1.2　ソフトウエア
1.2コンピューターにおける文字と符号化
　1.2.1　ビット列と数値
　1.2.2　文字と符号化
　1.2.3　文字フォント
　1.2.4　制御文字
1.3　圧縮とハッシュ
　1.3.1　符号化を利用した圧縮
　1.3.2　圧縮の効率と情報量
　1.3.3　ハッシュ法の利用
　1.3.4　ハッシュ法の注意点
1.4　Pythonの利用
　1.4.1　DNA，RNA，およびアミノ酸配列のデータベースとアクセッション番号
　1.4.2　配列データベースへのアクセス
1.5　計算量の評価
　1.5.1　ランダウの記法
　1.5.2　文字列探索
章末問題

2.　ゲノム配列決定とDNA
2.1　DNAの性質
　2.1.1　核酸塩基
　2.1.2　糖・リン酸バックボーン
　2.1.3　ワトソン・クリック塩基対
　2.1.4　二本鎖DNA
2.2　複製
　2.2.1　DNAの半保存的複製
　2.2.2　岡崎フラグメントとDNA複製の限界
　2.2.3　PCR
　2.2.4　PCR検査
2.3　配列決定
　2.3.1　電気泳動法
　2.3.2　サザンブロッティング
　2.3.3　制限酵素
　2.3.4　マイクロアレイ法
　2.3.5　第一世代シークエンサー
　2.3.6　第二世代（次世代）シークエンサー
　2.3.7　第三世代シークエンサー
2.4　k-mer法
　2.4.1　k-merの例
　2.4.2　k-merのメモリー使用量
　2.4.3　ゲノム中に一度しか現れない単語
　2.4.4　ゲノムサイズ推定
2.5　デノボアセンブリ
　2.5.1　デブラングラフ
　2.5.2　順序
　2.5.3　橋検出とlowlink
　2.5.4　フラーリーのアルゴリズム
　2.5.5　デノボアセンブリソフトウエアの例
　2.5.6　オーバーラップレイアウトコンセンサス法
2.6　マッピング
　2.6.1　巡回ソートとバロウズ・ウィーラー変換
　2.6.2　FMインデックスとLFマッピング
　2.6.3　FMインデックスを用いた逆バロウズ・ウィーラー変換
　2.6.4　FMインデックスを用いた文字列検索
　2.6.5　接尾辞配列
　2.6.6　接尾辞配列の工夫
　2.6.7　マッピングソフトウエアの例
　2.6.8　ヒトゲノム参照配列
　2.6.9　バロウズ・ウィーラー変換を利用した圧縮
2.7　染色体
　2.7.1　セントロメア
　2.7.2　体細胞分裂と染色体
　2.7.3　減数分裂・性・遺伝的組換え
　2.7.4　突然変異
　2.7.5　シンテニーと遺伝子重複
　2.7.6　エピゲノムとDNAメチル化
2.8　転写とRNA
　2.8.1　RNAを構成する要素
　2.8.2　転写
　2.8.3　スプライシング
　2.8.4　エクソンとイントロン
　2.8.5　ノーザンブロッティング
　2.8.6　テロメアと逆転写酵素
　2.8.7　ウイルス
　2.8.8　RNA-Seq
章末問題

3.　ペアワイズアラインメント
3.1　最適化問題としてのペアワイズアラインメント推定
　3.1.1　分子進化
　3.1.2　目的関数と最適化問題
3.2　DNA間のスコア
3.3　アミノ酸間のスコア
　3.3.1　アミノ酸の構造
　3.3.2　タンパク質を構成するアミノ酸
　3.3.3　タンパク質を構成するアミノ酸の特性
　3.3.4　アミノ酸変異の表記
　3.3.5　アミノ酸ペアにスコアを与える方法
　3.3.6　BLOSUMスコア
3.4　最適化問題とその難しさ
3.5　動的計画法
　3.5.1　動的計画法とニードルマン-ヴンシュ(1970)のアルゴリズム
　3.5.2　アフィンギャップスコア
　3.5.3　後藤(1982)のアルゴリズム
3.6　加藤ら(2002)のアルゴリズムとMAFFT
　3.6.1　連続化と正規分布
　3.6.2　ずれと相互相関関数
　3.6.3　DNA配列およびアミノ酸配列の2次元ベクトル化
　3.6.4　高速フーリエ変換（FFT）と相互相関関数
　3.6.5　相互相関関数のピークと相同性
　3.6.6　場所の確認
　3.6.7　動的計画法1回目
　3.6.8　動的計画法2回目
3.7　Biopythonによるアラインメントアプリケーションの呼び出し
　3.7.1　BiopythonからのMAFFT呼び出し
　3.7.2　BiopythonからのClustal W呼び出し
章末問題

4.　分子系統樹推定と多重配列アラインメント
4.1　進化距離と進化速度
　4.1.1　置換
　4.1.2　確率過程
　4.1.3　ポアソン距離
　4.1.4　DNA配列から求める進化距離
　4.1.5　DNAにおける遷移速度行列と塩基置換速度の推定
　4.1.6　DNA配列比較による進化距離推定の今後の発展
　4.1.7　翻訳のプロセスとコドン表
　4.1.8　アミノ酸配列から求める進化距離
　4.1.9　アミノ酸配列比較による進化距離推定の今後の発展
　4.1.10　k-mer法を利用したアラインメントに頼らない進化距離推定法
4.2　進化距離推定をもとにした分子系統樹再構築法
　4.2.1　距離行列
　4.2.2　Pythonによる系統樹の表示
　4.2.3　非加重結合法（UPGMA）
　4.2.4　近隣結合法（NJ法）
　4.2.5　非加重結合法と近隣結合法の比較
　4.2.6　距離行列とgenotype value decomposition
　4.2.7　長枝誘引
　4.2.8　結合したOTUと残りのOTUの間の距離
　4.2.9　ブートストラップ検定
　4.2.10　PartTree法
　4.2.11　配列数と計算時間の関係
　4.2.12　分類群の利用
　4.2.13　オーソロガスとパラロガス
　4.2.14　真核生物の細胞と細胞内共生説
　4.2.15　ミトコンドリアのコドン表
4.3　多重配列アラインメント
　4.3.1　逐次追加法
　4.3.2　ガイド樹法
　4.3.3　外部からの系統樹読み込み
　4.3.4　反復改善法
章末問題

5.　機能解析と相同性検索
5.1　統計的仮説検定
　5.1.1　実験計画法
　5.1.2　超幾何分布
　5.1.3　帰無仮説と第1種の過誤
　5.1.4　フィッシャーの正確確率検定
　5.1.5　Z検定
　5.1.6　カイ2乗検定
　5.1.7　対立仮説と第2種の過誤
5.2　ゲノムワイド関連解析による疾患関連遺伝子の探索
　5.2.1　ゲノムワイド関連解析
　5.2.2　ファミリーワイズエラー率とボンフェローニの補正
　5.2.3　GWASカタログ
5.3　相同性検索
　5.3.1　スミス-ウォーターマン(1981)のアルゴリズム
　5.3.2　相同性検索とセグメントスコア
　5.3.3　相同性検索の統計検定
　5.3.4　BLAST
　5.3.5　相同性のある配列が見つからない場合
5.4　アノテーション
5.5　ゲノム配列の変化とタンパク質の機能の関係についての今後の展開
章末問題

付録
A.1　Pythonの基本文法
　A.1.1　Pythonのデータ型
　A.1.2　Pythonとオブジェクト指向プログラミング
　A.1.3　Pythonの構文
A.2　ファイルフォーマット
　A.2.1　FASTAフォーマット
　A.2.2　FASTQフォーマット
A.3　ベクトルと行列
　A.3.1　ベクトルの成分表示
　A.3.2　ベクトルの和
　A.3.3　ベクトルの大きさ
　A.3.4　ベクトルの内積
　A.3.5　ベクトルの内積の成分計算
　A.3.6　直交
　A.3.7　行列
　A.3.8　行列の積
　A.3.9　2次元のベクトルと面積と行列式
A.4　解析関数
　A.4.1　微分とベルヌーイの不等式
　A.4.2　指数関数
　A.4.3　対数関数と自然対数の底e
　A.4.4　三角関数と円周率π
A.5　統計にかかわる関数
　A.5.1　標本
　A.5.2　同時確率と条件つき確率
　A.5.3　確率密度関数
　A.5.4　累積分布関数
　A.5.5　確率変数の期待値
　A.5.6　分散
　A.5.7　k次のモーメント
　A.5.8　標本平均
　A.5.9　標本分散
　A.5.10　極値分布
　A.5.11　フーリエ変換，畳み込み，相互相関関数
　A.5.12　中心極限定理

引用・参考文献
章末問題解答
索引

読者モニターレビュー【 1010mark 様（業界・専門分野：情報系）】

端的に言えば、よくまとまっていて興味深い本だと思います。
普段は情報科学に携わっている私は、隣接領域である生物科学にも関心がありました。しかし高校生の頃、生物で挫折した苦い経験があったため、なかなか手を出せずにいました。そこでちょうどよい本があったので、本書を手に取りました。
特に印象的だったのは、生物科学にも情報科学にも不慣れな読者にも配慮されている点です。第一章では情報科学の基礎から解説し、第二章ではDNAの基本を扱います。さらに付録にはPythonの基本文法から統計関連の関数まで網羅されており、手厚いサポートが提供されています。このような構成から、本書はどちらの領域にも自信のない読者にもおすすめできます。
また、生物科学の解析にアルゴリズムがどのように応用されているかが紹介されている点も興味深かったです。情報系の研究者として普段はDPやハッシュテーブル、FFTを何気なく利用していますが、本書ではそれらがk‑mer法や相互相関関数（アラインメント推定のための）など、多様な文脈で応用されていることが示されています。これにより、アルゴリズムの理解が一層深まりました。
総じて、本書は生物科学と情報科学という一見異なる分野を、読者に優しくかつ本質的に橋渡ししてくれる一冊です。単なる入門書にとどまらず、両分野の知識が相互に作用し合い、新たな視点を提供してくれる構成には深く感銘を受けました。生物科学と情報科学の交差点に少しでも関心があるなら、この本は必読です。

読者モニターレビュー【 iden 様（業界・専門分野：バイオインフォマティクス）】

ゲノムアセンブリに用いられるツールは、コマンドを実行するだけで解析が可能ですが、「なぜそのソフトを使うのか？」と問われたときに、「この分野で皆が使っているから」と答えるだけで良いのかと疑問に思うことが多々ありました。
Bowtie2、SPAdes、BLASTなどの汎用ソフトの元論文を辿れば、それらがどのようなアルゴリズムで動作しているかは記載されています。しかし、初学者が論文からアルゴリズムを理解し、ツールを自身の研究に最適化して使用するには大きなハードルがあります。
本書は、ゲノムアセンブリやマルチプルアライメントのアルゴリズムを日本語で丁寧に解説した貴重な一冊です。研究を始めたばかりの人が分野の全体像を掴むための入門書としても最適であり、また、論文を読み進める中で生じた疑問を補完するのにも役立ちます。
さらに、簡易なPythonコードがGitHub上で公開されているため、手を動かしながら理解を深めることができます。
総じて、本書はゲノム解析に興味がある全ての人におすすめしたい一冊です。

レビュー,書籍紹介・書評掲載情報一覧

浜田道昭（ハマダミチアキ）

早稲田大学理工学術院教授

2002年東北大学大学院理学研究科数学専攻修士課程修了
2009年東京工業大学大学院総合理工学研究科知能システム科学専攻博士後期課程修了（社会人博士），博士（理学）

（株）富士総合研究所研究員，東京大学大学院新領域創成科学研究科特任准教授，早稲田大学理工学術院准教授を経て，2018年より現職．

バイオインフォマティクス全般，特に，生物の配列情報を解析するための情報技術の開発とそれらの医学・薬学分野への応用研究を行っている．近年は，タンパク質に翻訳されない天然のRNAであるノンコーディングRNAや人工のRNAを薬とする核酸医薬などを対象にした「RNA情報学」の研究に注力をしている．

三澤計治（ミサワカズハル）

趣味は旅行、遺跡・城郭、神社・仏閣・教会めぐり、美術館・博物館めぐり、動物園・植物園・水族館めぐり、料理、読書、プログラミング、数学パズル、サッカー観戦などなど。

私が理化学研究所のスパコン「京」を用いた研究を行っていた時、情報科学の研究者・技術者と共同研究を行いました。その中には、バイオインフォマティクスを学び、医学に貢献したいと考える情報科学の専門家が多く在籍していました。また、東北大学東北メディカル・メガバンク機構、関西医科大学、および横浜市立大学では、医学系の研究者とゲノム解析の共同研究を行いました。そこには、コンピューターを活用して統計学や計算科学の情報を求める学生や研究者がいました。
このような経験を通じて、私は情報科学やゲノム解析に取り組む学生・専門家、そして生物学・医学の学生や研究者に役立つ本を書きたいと思うようになりました。