トランスクリプトーム解析

バイオインフォマティクスシリーズ 6

トランスクリプトーム解析

トランスクリプトーム解析の原理を理論的な背景を押さえながら体系的にまとめた。

ジャンル
発行予定日
2025/03/下旬
判型
A5
ページ数
230ページ
ISBN
978-4-339-02736-5
トランスクリプトーム解析
近刊出来次第出荷
発行出来次第どこよりも早くお届けいたします。予約受付中。

定価

3,960(本体3,600円+税)

カートに入れる

購入案内

  • 内容紹介
  • まえがき
  • 目次
  • 著者紹介

【書籍の特徴】
シーケンシング技術の普及に伴い、RNA-seqを中心としたトランスクリプトームデータの計測・解析が日常的になりました。このような背景から、各種解析ツールの使い方などの優れたhow to本が出版されてきました。一方で、それら解析の「中身」に関してまとめられた和書はありませんでした。そこで本書では、トランスクリプトーム解析全般に関し、理論的な背景をしっかり押さえつつ、全体として筋が通った形でまとめることを目指しました。アルゴリズムや理論に関しては、可能な限り簡略化し、それでいて本質は失わないように注意を払いながら解説しています。また、式変形などは途中経過も含め、可能な限り丁寧に説明することも心がけています。

【各章について】
1章:ゲノムなどの分子生物学の基礎からシーケンシング技術やRNA-seqの種類や特徴など、トランスクリプトーム解析に必要な基礎知識を解説する。
2章:基本的な配列アセンブリおよび転写産物に特化したトランスクリプトームアセンブリについて解説する。
3章:基本的なマッピングアルゴリズムおよびスプライシングへの対応や融合遺伝子の検出など、マッピング関連の手法を解説する。
4章:遺伝子の発現量を定量化するための手法として、決定論的や確率論的な手法、アライメントが不要な手法などを解説する。
5章:一般的な発現変動遺伝子(DEG)の検出手法のほか、スプライシング変動やバイアス補正法なども解説する。
6章:遺伝子オントロジーなどを利用してDEGを解析するエンリッチメント解析の手法を解説する。
7章:PCAやラプラシアン固有マップ、t-SNEなどの次元圧縮法を解説する。
8章:k-means法や混合ガウスモデル、スペクトラルクラスタリング、Louvain法などのクラスタリングアルゴリズムを解説する。
9章:擬時間解析やRNA velocity、細胞間コミュニケーションなどの1細胞RNA-seqの解析手法を解説する。
10章:マルチモーダル計測や空間トランスクリプトームなど、今後の発展が期待される技術を紹介する。

【読者へのメッセージ】
アルゴリズムの詳細や数式の細かい点を理解するのが難しい場合は、まずは本書をざっと通読して全体像を把握し、必要に応じて特定の章を読み返していただいて構いません。本書が読者の興味をかき立て、新たにトランスクリプトーム解析の研究に取り組むきっかけとなれば僥倖です。

【本書のキーワード】
RNA-seq、トランスクリプトーム、アセンブリ、マッピング、発現変動遺伝子(DEG)、次元圧縮、クラスタリング、1細胞RNA-seq

☆発行前情報のため,一部変更となる場合がございます

細胞の中では,遺伝子をコードする領域をはじめ,ゲノムのさまざまな領域から転写産物であるトランスクリプトが転写されている。このようなトランスクリプトの転写は,組織などで正確に制御され,異なるトランスクリプトが生成されている。この違いにより,個々の組織は異なる働きをしている。このような,ある組織などの特定のサンプル中に存在するトランスクリプトの全貌をトランスクリプトームと呼ぶ。本書では,どのような目的で,どのような方法でトランスクリプトームデータを解析するかを説明する。

このようなトランスクリプトームは,DNAシークエンシング技術などの進歩により,いまや日常的に計測可能になった。それに伴い,トランスクリプトームのデータを解析することも,日常的なルーチンワークと化している。しかし,トランスクリプトーム解析を行っている専門家であっても,その中身をどれほど理解しているかは人それぞれである。これまでに,トランスクリプトーム解析を実際に行うためのhow to本などの書籍が多数出版されてきたが,その原理を深く解説する書籍は限定的であった。また,個々の解析の原理に関しては,インターネット上などに優れた資料も存在するものの,どうしても情報が散らばっているのが実情である。そこで本書では,トランスクリプトーム解析全体のトピックに関し,理論的な背景をしっかり押さえつつ,全体として筋が通った1冊の書籍としてまとめることを目指した。

本書では,トランスクリプトーム解析の基盤となる基礎的なアルゴリズムや理論を,可能な限り簡略化し,それでいて本質は失わないように注意を払いながら説明することを心がけた。また,確率モデルの式変形などは,途中経過も含め,可能な限り丁寧に説明をすることも心がけた。それぞれのトピックに対し,どの程度の解像度で内容を理解したいかは読者によって異なるだろう。アルゴリズムの詳細や数式の細かい点などを正確に読むのが大変な場合は,まずは読み流してトランスクリプトーム解析の全体像を理解してもらい,必要に応じて特定の章を読み返してもらっても構わない。また,本書の内容は本書執筆時点での最新の手法を紹介することにはこだわらず,古典的だが単純で有用な考え方の手法を紹介している場面も多々ある。もし個別のトピックに関し,最先端の手法や研究を知りたい読者は,最新の文献をあたってほしい。本書が,読者の興味を引き立て,新たなトランスクリプトーム解析の研究に駆り立てられれば僥倖である。

また,トランスクリプトームに限らず,計測技術の進歩は著しく,日々新たな技術が登場している。したがって,どのようなデータ解析が必要になるかは,その都度変わってくると予想される。しかし,計測技術が劇的に変化したとしても,その解析に必要な知識や基盤的な考え方には普遍性があると考えられる。今後必要となる解析に出会ったとき,本書の内容が少しでも貢献できれば幸いである。

本書を出版するにあたり,多くの方々にご協力を賜りました。九州大学の前原一満助教と早稲田大学高等研究所の福永津嵩准教授には,本書全体を通して内容の厳選から誤字に至るまで,多くのコメントをいただきました。特に,前原一満助教には理論的な指摘から修正案に至るまで多くの助言をいただきました。また,2,3章の配列の取り扱いに関して,鈴木創氏とKarolinska Institutetの佐藤健太氏に技術的な内容の助言をいただきました。また,10章の発展的な計測技術に関して,理化学研究所の林哲太郎博士と東京科学大学の笹川洋平准教授に助言をいただきました。ご協力いただいた方に心より感謝を申し上げます。最後に,いつもそばにいて執筆を支えてくれるとともに内容の助言もくれた妻の洪婧博士に感謝します。

2025年2月
松本拡高

☆発行前情報のため,一部変更となる場合がございます

1. 分子生物学とトランスクリプトーム解析の基礎
1.1 ゲノムとは
 1.1.1 デオキシリボヌクレオチド・DNA・ゲノム
 1.1.2 半保存的複製
1.2 DNAシークエンサー
 1.2.1 ポリメラーゼ連鎖反応
 1.2.2 ジデオキシ法
 1.2.3 Illumina塩基配列決定法
 1.2.4 PacBio塩基配列決定法
 1.2.5 ナノポア塩基配列決定法
1.3 RNA・タンパク質・遺伝子とは
 1.3.1 RNAとは
 1.3.2 タンパク質とは
 1.3.3 遺伝子とは
 1.3.4 転写
 1.3.5 翻訳
 1.3.6 原核生物の遺伝子構造と転写と翻訳
 1.3.7 RNAの種類と機能
1.4 トランスクリプトームとは
1.5 ゲノムアノテーション
1.6 RNAシークエンシング
 1.6.1 トータルRNAとポリARNAシークエンシング
 1.6.2 短鎖RNAシークエンシング
 1.6.3 full-lengthと3’端・5’端RNAシークエンシング
 1.6.4 シングルエンドとペアエンド
 1.6.5 ストランド情報の有無
 1.6.6 分子バーコード
 1.6.7 ロングリードシークエンシングとダイレクトRNAシークエンシング
1.7 本章のまとめ

2. トランスクリプトームアセンブリ
2.1 配列アセンブリ
 2.1.1 overlap-layout-consensus
 2.1.2 k-merに基づくグラフとハミルトン路
 2.1.3 ド・ブラウングラフとオイラー路
 2.1.4 ゲノムアセンブリとトランスクリプトームアセンブリの違い
2.2 de novoトランスクリプトームアセンブリ
 2.2.1 Trinity
 2.2.2 アセンブリ後の処理
 2.2.3 評価指標
2.3 リファレンスベースドアセンブリ
2.4 コンティグの機能アノテーション
2.5 本章のまとめ

3. リードマッピング
3.1 力まかせな文字列探索
3.2 高速なリードマッピング
 3.2.1 Burrows-Wheeler変換
 3.2.2 LF mapping
 3.2.3 FM-index
 3.2.4 リードアライメント
3.3 スプリットリードのマッピング
 3.3.1 cDNA配列へのマッピング
 3.3.2 擬似的にスプライシングした合成配列へのマッピング
 3.3.3 スプリットマッピング
 3.3.4 融合遺伝子の検出
 3.3.5 バックスプライシングの検出
3.4 本章のまとめ

4. 発現量の定量
4.1 アライメントベースな発現量定量化
 4.1.1 リードカウントに基づく手法
 4.1.2 リードの生成モデルに基づく手法
 4.1.3 異なる定量化指標
4.2 アライメントフリーな発現量定量化
4.3 5’端・3’端RNA-seqにおける発現量定量
 4.3.1 転写産物長の補正に関して
 4.3.2 UMIカウント
4.4 本章のまとめ

5. 発現変動解析
5.1 アノテーションに基づく発現変動解析
 5.1.1 リードカウントベースの発現変動解析
 5.1.2 フラグメントの確率ベースの発現変動解析
5.2 スプライシング変動解析
5.3 ポリアデニル化サイト変動解析
5.4 新規転写単位・構造の検出
 5.4.1 ヒューリスティックなアプローチ
 5.4.2 flexible expressed region analysis
5.5 バイアスの補正
 5.5.1 TMM正規化
 5.5.2 quantile正規化
 5.5.3 モデルに基づく正規化
5.6 本章のまとめ

6. 高次解析
6.1 「生物学的特徴」を表す遺伝子セット
6.2 エンリッチメント解析
 6.2.1 over-representation analysis
 6.2.2 gene set enrichment analysis
6.3 レギュロン解析
 6.3.1 MARA
 6.3.2 SCENIC
6.4 本章のまとめ

7. 次元圧縮
7.1 層別化医療と次元圧縮・クラスタリング
7.2 主成分分析
7.3 ラプラシアン行列に基づく次元圧縮
 7.3.1 ラプラシアン固有マップ
 7.3.2 拡散マップ
 7.3.3 ラプラシアン行列に基づく固有ベクトルの特徴と注意点
7.4 SNE,symmetric SNE,t-SNE
 7.4.1 SNE
 7.4.2 symmetric SNE
 7.4.3 t-SNE
 7.4.4 SNEなどの手法の特徴と注意点
7.5 ポアンカレ埋め込み
7.6 遺伝子選択
 7.6.1 分散に基づく遺伝子選択
 7.6.2 PCAに基づく遺伝子選択
 7.6.3 外部知識に基づく遺伝子選択
7.7 本章のまとめ

8. クラスタリング
8.1 k-means法
 8.1.1 クラスタ数の決定方法
 8.1.2 混合ガウスモデル
8.2 グラフカットとスペクトラルクラスタリング
 8.2.1 グラフカット
 8.2.2 スペクトラルクラスタリング
8.3 DBSCAN
8.4 Louvain法
8.5 本章のまとめ

9. 1細胞RNA-seq解析
9.1 なぜ1細胞か
9.2 細胞種の同定
 9.2.1 複数の1細胞RNA-seqデータの統合
 9.2.2 既存の1細胞RNA-seqデータへの検索
 9.2.3 希少細胞同定
 9.2.4 幹細胞同定
9.3 擬時間解析
9.4 RNA velocity
9.5 細胞間相互作用の推定
9.6 1細胞RNA-seqにおける発現変動解析
 9.6.1 クラスタリングに依存しない発現変動解析
 9.6.2 アノテーション外の発現変動転写産物の検出
 9.6.3 ノイズの除去と欠測値の補完
9.7 本章のまとめ

10. 発展的な計測技術
10.1 超多検体RNA-seq
10.2 1細胞RNA-seqからマルチモーダル計測へ
 10.2.1 トランスクリプトームと細胞形態情報の同時計測
 10.2.2 トランスクリプトームと他の配列情報の同時計測
 10.2.3 オリゴヌクレオチド標識を用いた同時計測
10.3 ゲノム編集を利用した技術
 10.3.1 大規模摂動シークエンシング
 10.3.2 細胞系譜追跡
10.4 空間トランスクリプトーム
 10.4.1 in situハイブリダイゼーションを利用した方法
 10.4.2 in situキャプチャーを利用した方法
10.5 ダイレクトRNAシークエンシング
10.6 本章のまとめ

引用・参考文献
索引

浜田 道昭

浜田 道昭(ハマダ ミチアキ)

早稲田大学 理工学術院 教授

2002年 東北大学大学院 理学研究科 数学専攻 修士課程修了
2009年 東京工業大学大学院 総合理工学研究科 知能システム科学専攻 博士後期課程修了(社会人博士),博士(理学)

(株)富士総合研究所 研究員,東京大学大学院 新領域創成科学研究科 特任准教授,早稲田大学 理工学術院 准教授を経て,2018年より現職.

バイオインフォマティクス全般,特に,生物の配列情報を解析するための情報技術の開発とそれらの医学・薬学分野への応用研究を行っている.近年は,タンパク質に翻訳されない天然のRNAであるノンコーディングRNAや人工のRNAを薬とする核酸医薬などを対象にした「RNA情報学」の研究に注力をしている.

松本 拡高

松本 拡高(マツモト ヒロタカ)

DNAシークエンサーやゲノム編集技術をはじめとする様々な実験技術の革新的な進歩により、多様な情報を持つ生命科学データがハイスループットに得られるようになった。 このような大規模高次元の生命データに対し、情報・数理の視点から生命現象の理解を目指すとともに、再生医療や個別化医療などへの発展を目指している。

★特設サイトはこちらから★

シリーズ刊行のことば,シリーズラインアップ,著者一覧,目次がご覧いただけます

https://www.coronasha.co.jp/bioinformatics/