シリーズ情報科学における確率モデル 4 マルコフ決定過程 - 理論とアルゴリズム -

シリーズ情報科学における確率モデル 4

マルコフ決定過程 - 理論とアルゴリズム -

中出康一名工大教授博士（工学）著

本書では，現在の状況を表す状態を観測しながら，ある利益（費用）規範の下で最適な決定を行う確率過程であるマルコフ決定過程の基本理論や実際に問題を定式化して解き，最適決定政策を求める際必要となる計算手法に焦点をあて解説した。

ジャンル

発行年月日: 2019/04/05

判型: A5

ページ数: 202ページ

ISBN: 978-4-339-02834-8

在庫あり

2営業日以内に出荷致します。

定価

3,190円(本体2,900円+税)

カートに入れる

購入案内

内容紹介
目次
レビュー
著者紹介
広告掲載情報

本書では，現在の状況を表す状態を観測しながら，ある利益（費用）規範の下で最適な決定を行う確率過程であるマルコフ決定過程の基本理論や実際に問題を定式化して解き，最適決定政策を求める際必要となる計算手法に焦点をあて解説した。構成は以下の通りである。

1章「マルコフ決定過程の概要」では，マルコフ決定過程の理論的基礎となる動的計画法の説明とともに，マルコフ決定過程の概要を述べ，本書の構成を示す。
2章「マルコフ連鎖と再生過程」では，本書の内容の理解に必要となる確率や確率過程の基礎について説明する。確率変数の基礎について説明した後，確率過程の中でもマルコフ決定過程の基礎となるマルコフ連鎖や再生過程についても説明する。
3章「有限期間総期待利得マルコフ決定過程」では，有限期間における総期待利得を最大化するように各期において決定を行う問題を考える。マルコフ決定過程としての定式化と，最適政策の定義を述べ，その性質を示す。さらに，各期における最適決定を計算するアルゴリズムとして値反復法を示す。
4章「総割引期待利得マルコフ決定過程」では，無限期間における総割引期待利得を最大化する問題について，定式化を行い，最適性方程式を示すとともに，最適政策に関する理論的性質を示す。特に，割引率の存在により，総期待利得の最適値関数に関する縮小写像等の性質があることなどが導かれ，最適政策に関する理論的保証の導出を容易にすることを述べる。また，最適政策を導く数値計算法として，値反復法，政策反復法，修正政策反復法，線形計画法による方法について議論する。
5章「平均利得マルコフ決定過程」では，長時間で見たときの利得として平均利得を規範として想定して平均利得問題を扱う場合の最適政策の性質，最適政策を求めるアルゴリズムについて，注意しなければならない点に留意しながら述べる。
6章「セミマルコフ決定過程」では，前章までの離散時間上の確率過程に従ったものではなく，決定の時間間隔が連続量の確率変数に従う場合を考える。
7章「部分観測可能マルコフ決定過程」では，状態を直接完全に観測できない場合，その状態を予測確率を用いて表現し，観測された結果を基に予測を更新する部分観測可能マルコフ決定過程について述べる。
8章「マルコフ決定過程の展開」では，大規模問題を解くための近似アルゴリズムに関する議論や，強化学習への応用，また最適政策が持つ性質の導出に関して述べる。

1.　マルコフ決定過程の概要
1.1　ORと確率モデル
1.2　動的計画法
1.3　マルコフ決定過程
1.4　定式化の例
1.5　マルコフ決定過程の拡張と発展

2.　マルコフ連鎖と再生過程
2.1　離散型確率変数
　2.1.1　確率，期待値，分散
　2.1.2　条件付き確率
　2.1.3　独立
　2.1.4　離散型確率変数の例
2.2　連続型確率変数
　2.2.1　分布関数
　2.2.2　期待値，分散，独立，条件付き確率
　2.2.3　指数分布の性質
2.3　離散時間マルコフ連鎖
　2.3.1　推移確率
　2.3.2　状態の分類
2.4　周期
2.5　マルコフ連鎖の定常確率と極限確率
2.6　有限マルコフ連鎖
2.7　再生過程
2.8　再生報酬過程
2.9　マルコフ報酬過程
2.10　セミマルコフ過程
2.11　連続時間マルコフ連鎖
　2.11.1　極限確率と定常確率
　2.11.2　一様化

3.　有限期間総期待利得マルコフ決定過程
3.1　有限期間総期待利得問題
3.2　最適性方程式
3.3　値反復法
3.4　数値例

4.　総割引期待利得マルコフ決定過程
4.1　無限期間総割引期待利得
4.2　最適性方程式と理論的性質
4.3　計算アルゴリズム
　4.3.1　値反復法
　4.3.2　政策反復法
　4.3.3　修正政策反復法
　4.3.4　線形計画法

5.　平均利得マルコフ決定過程
5.1　平均利得
　5.1.1　平均利得の上極限，下極限
　5.1.2　可算無限状態のとき
　5.1.3　定常マルコフ政策
　5.1.4　平均利得と定常マルコフ政策
5.2　平均利得に関する関係式
5.3　相対値と平均利得
5.4　総割引期待利得と平均利得の関係
5.5　マルコフ決定過程の分類
5.6　計算アルゴリズム（単一連鎖の場合）
　5.6.1　値反復法
　5.6.2　政策反復法
　5.6.3　修正政策反復法
　5.6.4　線形計画法
5.7　計算アルゴリズム（多重連鎖の場合）
　5.7.1　値反復法
　5.7.2　政策反復法
　5.7.3　線形計画法

6.　セミマルコフ決定過程
6.1　セミマルコフ決定過程とは
6.2　総割引期待利得
6.3　平均利得
6.4　連続時間マルコフ決定過程（推移間隔が指数分布に従う場合）
　6.4.1　一様化：割引期待利得規範の場合
　6.4.2　一様化：平均費用規範の場合
　6.4.3　例

7.　部分観測可能マルコフ決定過程
7.1　部分観測可能マルコフ決定過程とは
7.2　信念
7.3　定式化
7.4　値関数の線形性
7.5　ベクトル集合の生成

8.　マルコフ決定過程の展開
8.1　近似最適化アルゴリズム
8.2　強化学習とマルコフ決定過程
　8.2.1　状態価値と行動価値
　8.2.2　TDアルゴリズム
　8.2.3　Sarsa,Q学習
　8.2.4　TD(λ),Sarsa(λ)アルゴリズム
8.3　決定直後の状態を用いた近似アルゴリズム
8.4　最適政策の性質
　8.4.1　客の到着許可問題
　8.4.2　最適政策の持つ性質の証明

引用・参考文献
索引

読者モニターレビュー【田中康貴様（データ分析エンジニア）】

本書はマルコフ決定過程，マルコフ連鎖について，その理論について基礎から書かれた本です。
マルコフ決定過程とは，「現在の状況を表す状態を観測しながら，ある利益規範の下で最適な決定を行う確率過程」（本書まえがきより）のことです。
主にオペレーションズリサーチ（OR）の分野で使われ，いわゆる「費用対効果」を数理的に解くことに応用されてきました。

最近では、強化学習（Reinforcement learning）の分野での応用が進んでおり，本書でも最終章（8章）で触れられています。
ただ強化学習については軽く触れられている程度で，あくまでそこにたどり着くまでの基礎理論が本書のメインとなっています。
サブタイトルにー理論とアルゴリズムーとあるように，本書では全体を通して，マルコフ決定過程に関連する理論と計算アルゴリズムが丁寧に数式で説明されている印象を受けました。

最近は，アルゴリズムを実装したライブラリが充実しており（例えば深層強化学習ならkeras-RL, chainer-RL，マルコフ連鎖モンテカルロ法ならpymc3）アルゴリズムを使うだけなら比較的容易に済ますことができます。
ですが，その背景にある理論を丁寧に理解しようとしたとき、本書は良い入口となる気がしました。

読者モニターレビュー【M.K.様（大学院・航空宇宙システム制御専攻）】

数理最適化，制御工学，強化学習の観点からマルコフ決定過程に興味があり，モニターに応募した。
本書は，オペレーションズ・リサーチ(OR)の研究者である著者が，主にORの例題を通してマルコフ決定過程という確率過程について解説する内容となっている。話題はマルコフ決定過程の基礎となっているBellmanの動的計画法から，近年話題となっている強化学習アルゴリズムにどのように応用されているかまで広く取り扱っているが，実装例のプログラムは含まれていないため，辞書のように利用することが想定される。
本書は重要な例題とその証明に紙面を多く割いており，複雑な式展開の場面では必ず一言説明が入る所が丁寧だと感じられた。ただ通読に大きな影響があるほどでもないが，数学の高度な知識が必要になる部分があり，特に4章の不動点定理の部分は難易度が高い。しかし理工系の大学3年程度の数学の知識があれば一部を除き通読可能だと感じられた。
欲を言えば3～6章のアルゴリズムのパートや，8章の強化学習への応用のパートに図解があればさらに理解が深まると思われたが，全体としては様々なマルコフ決定過程の考え方や導出方法を把握することに役に立つ本であると思われる。

レビュー,書籍紹介・書評掲載情報一覧