書名で キーワードで

詳細検索 >>

HOME  > 情報工学  / 人工知能・知識工学  / 人工知能一般  > マルコフ決定過程

書籍詳細

シリーズ 情報科学における確率モデル 4)

  マルコフ決定過程
- 理論とアルゴリズム -

▼ 目次を読む

▼ 目次をたたむ

中出康一 名工大教授 博士(工学) 著

発行年月日:2019/04/05 , 判 型: A5,  ページ数:202頁

ISBN:978-4-339-02834-8,  定 価:3,132円 (本体2,900円+税)

本書では,現在の状況を表す状態を観測しながら,ある利益(費用)規範の下で最適な決定を行う確率過程であるマルコフ決定過程の基本理論や実際に問題を定式化して解き,最適決定政策を求める際必要となる計算手法に焦点をあて解説した。

【目次】

1. マルコフ決定過程の概要
1.1 ORと確率モデル
1.2 動的計画法
1.3 マルコフ決定過程
1.4 定式化の例
1. マルコフ決定過程の概要
1.1 ORと確率モデル
1.2 動的計画法
1.3 マルコフ決定過程
1.4 定式化の例
1.5 マルコフ決定過程の拡張と発展

2. マルコフ連鎖と再生過程
2.1 離散型確率変数
 2.1.1 確率,期待値,分散
 2.1.2 条件付き確率
 2.1.3 独立
 2.1.4 離散型確率変数の例
2.2 連続型確率変数
 2.2.1 分布関数
 2.2.2 期待値,分散,独立,条件付き確率
 2.2.3 指数分布の性質
2.3 離散時間マルコフ連鎖
 2.3.1 推移確率
 2.3.2 状態の分類
2.4 周期
2.5 マルコフ連鎖の定常確率と極限確率
2.6 有限マルコフ連鎖
2.7 再生過程
2.8 再生報酬過程
2.9 マルコフ報酬過程
2.10 セミマルコフ過程
2.11 連続時間マルコフ連鎖
 2.11.1 極限確率と定常確率
 2.11.2 一様化

3. 有限期間総期待利得マルコフ決定過程
3.1 有限期間総期待利得問題
3.2 最適性方程式
3.3 値反復法
3.4 数値例

4. 総割引期待利得マルコフ決定過程
4.1 無限期間総割引期待利得
4.2 最適性方程式と理論的性質
4.3 計算アルゴリズム
 4.3.1 値反復法
 4.3.2 政策反復法
 4.3.3 修正政策反復法
 4.3.4 線形計画法

5. 平均利得マルコフ決定過程
5.1 平均利得
 5.1.1 平均利得の上極限,下極限
 5.1.2 可算無限状態のとき
 5.1.3 定常マルコフ政策
 5.1.4 平均利得と定常マルコフ政策
5.2 平均利得に関する関係式
5.3 相対値と平均利得
5.4 総割引期待利得と平均利得の関係
5.5 マルコフ決定過程の分類
5.6 計算アルゴリズム(単一連鎖の場合)
 5.6.1 値反復法
 5.6.2 政策反復法
 5.6.3 修正政策反復法
 5.6.4 線形計画法
5.7 計算アルゴリズム(多重連鎖の場合)
 5.7.1 値反復法
 5.7.2 政策反復法
 5.7.3 線形計画法

6. セミマルコフ決定過程
6.1 セミマルコフ決定過程とは
6.2 総割引期待利得
6.3 平均利得
6.4 連続時間マルコフ決定過程(推移間隔が指数分布に従う場合)
 6.4.1 一様化:割引期待利得規範の場合
 6.4.2 一様化:平均費用規範の場合
 6.4.3 例

7. 部分観測可能マルコフ決定過程
7.1 部分観測可能マルコフ決定過程とは
7.2 信念
7.3 定式化
7.4 値関数の線形性
7.5 ベクトル集合の生成

8. マルコフ決定過程の展開
8.1 近似最適化アルゴリズム
8.2 強化学習とマルコフ決定過程
 8.2.1 状態価値と行動価値
 8.2.2 TDアルゴリズム
 8.2.3 Sarsa,Q学習
 8.2.4 TD(λ),Sarsa(λ)アルゴリズム
8.3 決定直後の状態を用いた近似アルゴリズム
8.4 最適政策の性質
 8.4.1 客の到着許可問題
 8.4.2 最適政策の持つ性質の証明

引用・参考文献
索引



『シリーズ 情報科学における確率モデル』ラインナップ
  1. 統計的パターン認識と判別分析
  2. 栗田多喜夫・日高章理 共著 発売中!!
  3. ボルツマンマシン
  4. 恐神貴行 著 発売中!!
  5. 捜索理論における確率モデル
  6. 宝崎隆祐・飯田耕司 共著 発売中!!
  7. マルコフ決定過程-理論とアルゴリズム-
  8. 中出康一 著 発売中!!
  9. エントロピーの幾何学
  10. 田中 勝 著 発売中!!
  11. 確率システムにおける制御理論
  12. 向谷博明 著 2019年6月上旬刊

以下続刊
  • システム信頼性の数理
  • 大鑄史男 著
  • マルコフ連鎖と計算アルゴリズム
  • 岡村寛之 著
  • 確率モデルによる性能評価
  • 笠原正治 著
  • ソフトウェア信頼性のための統計モデリング
  • 土肥 正・岡村寛之 共著
  • ファジィ確率モデル
  • 片桐英樹 著
  • 高次元データの科学
  • 酒井智弥 著
  • リーマン後の金融工学
  • 木島正明 著
刊行のことば

 われわれを取り巻く環境は,多くの場合,確定的というよりもむしろ不確実性にさらされており,自然科学,人文・社会科学,工学のあらゆる領域において不確実な現象を定量的に取り扱う必然性が生じる。「確率モデル」とは不確実な現象を数理的に記述する手段であり,古くから多くの領域において独自のモデルが考案されてきた経緯がある。情報化社会の成熟期である現在,幅広い裾野をもつ情報科学における多様な分野においてさえも,不確実性下での現象を数理的に記述し,データに基づいた定量的分析を行う必要性が増している。

 一言で「確率モデル」といっても,その本質的な意味や粒度は各個別領域ごとに異なっている。統計物理学や数理生物学で現れる確率モデルでは,物理的な現象や実験的観測結果を数理的に記述する過程において不確実性を考慮し,さまざまな現象を説明するための描写をより精緻化することを目指している。一方,統計学やデータサイエンスの文脈で出現する確率モデルは,データ分析技術における数理的な仮定や確率分布関数そのものを表すことが多い。社会科学や工学の領域では,あらかじめモデルの抽象度を規定したうえで,人工物としてのシステムやそれによって派生する複雑な現象をモデルによって表現し,モデルの制御や評価を通じて現実に役立つ知見を導くことが目的となる。

 昨今注目を集めている,ビッグデータ解析や人工知能開発の核となる機械学習の分野においても,確率モデルの重要性は十分に認識されていることは周知の通りである。一見して,機械学習技術は,深層学習,強化学習,サポートベクターマシンといったアルゴリズムの違いに基づいた縦串の分類と,自然言語処理,音声・画像認識,ロボット制御などの応用領域の違いによる横串の分類によって特徴づけられる。しかしながら,現実の問題を「モデリング」するためには経験とセンスが必要であるため,既存の手法やアルゴリズムをそのまま適用するだけでは不十分であることが多い。

 本シリーズでは,情報科学分野で必要とされる確率・統計技法に焦点を当て,個別分野ごとに発展してきた確率モデルに関する理論的成果をオムニバス形式で俯瞰することを目指す。各分野固有の理論的な背景を深く理解しながらも,理論展開の主役はあくまでモデリングとアルゴリズムであり,確率論,統計学,最適化理論,学習理論がコア技術に相当する。このように「確率モデル」にスポットライトを当てながら,情報科学の広範な領域を深く概観するシリーズは多く見当たらず,データサイエンス,情報工学,オペレーションズ・リサーチなどの各領域に点在していた成果をモデリングの観点からあらためて整理した内容となっている。

 本シリーズを構成する各書目は,おのおのの分野の第一線で活躍する研究者に執筆をお願いしており,初学者を対象とした教科書というよりも,各分野の体系を網羅的に著した専門書の色彩が強い。よって,基本的な数理的技法をマスターしたうえで,各分野における研究の最先端に上り詰めようとする意欲のある研究者や大学院生を読者として想定している。本シリーズの中に,読者の皆さんのアイデアやイマジネーションを掻き立てるような座右の書が含まれていたならば,編者にとっては存外の喜びである。

2018年11月

編集委員長 土肥 正

【関連情報】

【おすすめ本】

【レビュー】

読者モニターレビュー【田中康貴様(データ分析エンジニア)】

本書はマルコフ決定過程,マルコフ連鎖について,その理論について基礎から書かれた本です。
マルコフ決定過程とは,「現在の状況を表す状態を観測しながら,ある利益規範の下で最適な決定を行う確率過程」(本書まえがきより)のことです。
主にオペレーションズリサーチ(OR)の分野で使われ,いわゆる「費用対効果」を数理的に解くことに応用されてきました。

最近では、強化学習(Reinforcement learning)の分野での応用が進んでおり,本書でも最終章(8章)で触れられています。
ただ強化学習については軽く触れられている程度で,あくまでそこにたどり着くまでの基礎理論が本書のメインとなっています。
サブタイトルにー理論とアルゴリズムーとあるように,本書では全体を通して,マルコフ決定過程に関連する理論と計算アルゴリズムが丁寧に数式で説明されている印象を受けました。

最近は,アルゴリズムを実装したライブラリが充実しており(例えば深層強化学習ならkeras-RL, chainer-RL,マルコフ連鎖モンテカルロ法ならpymc3)アルゴリズムを使うだけなら比較的容易に済ますことができます。
ですが,その背景にある理論を丁寧に理解しようとしたとき、本書は良い入口となる気がしました。

読者モニターレビュー【M.K.様(大学院・航空宇宙システム制御専攻)】

数理最適化,制御工学,強化学習の観点からマルコフ決定過程に興味があり,モニターに応募した。
本書は,オペレーションズ・リサーチ(OR)の研究者である著者が,主にORの例題を通してマルコフ決定過程という確率過程について解説する内容となっている。話題はマルコフ決定過程の基礎となっているBellmanの動的計画法から,近年話題となっている強化学習アルゴリズムにどのように応用されているかまで広く取り扱っているが,実装例のプログラムは含まれていないため,辞書のように利用することが想定される。
本書は重要な例題とその証明に紙面を多く割いており,複雑な式展開の場面では必ず一言説明が入る所が丁寧だと感じられた。ただ通読に大きな影響があるほどでもないが,数学の高度な知識が必要になる部分があり,特に4章の不動点定理の部分は難易度が高い。しかし理工系の大学3年程度の数学の知識があれば一部を除き通読可能だと感じられた。
欲を言えば3~6章のアルゴリズムのパートや,8章の強化学習への応用のパートに図解があればさらに理解が深まると思われたが,全体としては様々なマルコフ決定過程の考え方や導出方法を把握することに役に立つ本であると思われる。

在庫は時期によりまして変動することがございますので、ご了承ください。