レビュー,書籍紹介・書評掲載情報

マルコフ決定過程 - 理論とアルゴリズム -

シリーズ 情報科学における確率モデル 4

マルコフ決定過程 - 理論とアルゴリズム -

本書では,現在の状況を表す状態を観測しながら,ある利益(費用)規範の下で最適な決定を行う確率過程であるマルコフ決定過程の基本理論や実際に問題を定式化して解き,最適決定政策を求める際必要となる計算手法に焦点をあて解説した。

発行年月日
2019/04/05
定価
3,190(本体2,900円+税)
ISBN
978-4-339-02834-8
在庫あり

レビュー,書籍紹介・書評掲載情報

読者モニターレビュー【田中康貴様(データ分析エンジニア)】

掲載日:2019/03/19

本書はマルコフ決定過程,マルコフ連鎖について,その理論について基礎から書かれた本です。
マルコフ決定過程とは,「現在の状況を表す状態を観測しながら,ある利益規範の下で最適な決定を行う確率過程」(本書まえがきより)のことです。
主にオペレーションズリサーチ(OR)の分野で使われ,いわゆる「費用対効果」を数理的に解くことに応用されてきました。

最近では、強化学習(Reinforcement learning)の分野での応用が進んでおり,本書でも最終章(8章)で触れられています。
ただ強化学習については軽く触れられている程度で,あくまでそこにたどり着くまでの基礎理論が本書のメインとなっています。
サブタイトルにー理論とアルゴリズムーとあるように,本書では全体を通して,マルコフ決定過程に関連する理論と計算アルゴリズムが丁寧に数式で説明されている印象を受けました。

最近は,アルゴリズムを実装したライブラリが充実しており(例えば深層強化学習ならkeras-RL, chainer-RL,マルコフ連鎖モンテカルロ法ならpymc3)アルゴリズムを使うだけなら比較的容易に済ますことができます。
ですが,その背景にある理論を丁寧に理解しようとしたとき、本書は良い入口となる気がしました。

読者モニターレビュー【M.K.様(大学院・航空宇宙システム制御専攻)】

掲載日:2019/03/15

数理最適化,制御工学,強化学習の観点からマルコフ決定過程に興味があり,モニターに応募した。
本書は,オペレーションズ・リサーチ(OR)の研究者である著者が,主にORの例題を通してマルコフ決定過程という確率過程について解説する内容となっている。話題はマルコフ決定過程の基礎となっているBellmanの動的計画法から,近年話題となっている強化学習アルゴリズムにどのように応用されているかまで広く取り扱っているが,実装例のプログラムは含まれていないため,辞書のように利用することが想定される。
本書は重要な例題とその証明に紙面を多く割いており,複雑な式展開の場面では必ず一言説明が入る所が丁寧だと感じられた。ただ通読に大きな影響があるほどでもないが,数学の高度な知識が必要になる部分があり,特に4章の不動点定理の部分は難易度が高い。しかし理工系の大学3年程度の数学の知識があれば一部を除き通読可能だと感じられた。
欲を言えば3~6章のアルゴリズムのパートや,8章の強化学習への応用のパートに図解があればさらに理解が深まると思われたが,全体としては様々なマルコフ決定過程の考え方や導出方法を把握することに役に立つ本であると思われる。