
強化学習アルゴリズム
さらなる応用が期待される強化学習アルゴリズム。その最先端を理解する力が手に入る一冊。
- 発行予定日
- 2025/10/下旬
- 判型
- B5
- ページ数
- 252ページ
- ISBN
- 978-4-339-02953-6

- 内容紹介
- まえがき
- 目次
【読者対象】
本書は、強化学習について網羅的に勉強してみたいと考える方に向けて書かれています。具体的には、大学学部後半(3・4年生)で強化学習をこれから勉強したいと考える学部生や、強化学習を自分の研究や開発に使ってみたいと考えている大学院生、社会人の方々に向けて書かれています。強化学習の勉強を独学してみたけれど、自力で最近の論文を理解するには至っていない、という方におすすめです。
【書籍の特徴】
本書の特徴は、最新の強化学習に関する論文を理解するために必要な前提知識を幅広く網羅している点にあります。基礎的な内容もカバーしつつ、発展的な内容も解説しています。本書を読んだ後、強化学習に関する最新の論文を読んだ時「この部分はあの本に書いてあったな…」と思ってもらえることを目指して書いてあります。
【各章について】
1章では、強化学習アルゴリズムを理解するために必要な数学的な知識を簡単にまとめています。
続けて2章では、マルコフ決定過程をはじめとする、強化学習の定式化について述べています。また、強化学習アルゴリズムの分類なども紹介します。3章では、強化学習において重要な役割を果たす、価値関数の学習について解説します。4章では、REINFORCEアルゴリズムなどの古典的なアルゴリズムから始めて、PPOなどの最近でもよく使われているものまで、オンポリシー型のアルゴリズムについて述べています。5章では、オンポリシー型よりも高い学習効率をしばしば発揮するオフポリシー型のアルゴリズムについて説明します。6章では、事前に収集されたデータを活用するアルゴリズムである、オフライン強化学習アルゴリズムについて説明しています。7章では、状態遷移モデルを活用したアプローチである、モデルベース強化学習について述べています。最後の8章では、内発的報酬による強化学習や、目標条件付き強化学習、生成モデルをつかったアプローチなどに関する発展的な内容に触れています。
【著者からのメッセージ】
強化学習は大規模言語モデルなどにも用いられて注目を集めていますが、強化学習に関する研究開発を行える人材は、日本ではまだまだ足りていません。本書が、強化学習をこれから自分の研究に役立てていきたい、という志を持っている方のお役に立てれば幸いです。
【キーワード】
強化学習、機械学習、ロボット学習、意思決定、深層学習、方策勾配、マルコフ決定過程、Q学習、ロボティクス、生成モデル
☆発行前情報のため,一部変更となる場合がございます
本書は,大学生および大学院生向けの教科書として執筆されたものです。強化学習は,学習を行うエージェントが試行錯誤を行い,得られたデータを基に最適な方策を学習する,という機械学習の一分野です。強化学習アルゴリズムは,人間を超える性能でゲームをプレイするAIの開発や,大規模言語モデルの出力のチューニング,ヒト型ロボットにおける物体操作スキルの学習などに用いられており,非常に汎用性の高いものです。今後,さらなる分野への応用が期待されますが,これらの最新の研究の動向を理解するためには,論文などを自分で読み,理解することが必要です。強化学習の問題設定やアルゴリズムは,それなりに複雑で,最新の論文を理解できるようになるのは容易ではありません。
本書では,強化学習に関する論文を理解するために必要な知識を網羅することを目指し,研究者の間では広く利用されている知識や手法をできるかぎり説明するようにしています。やや難解な部分もあるかもしれませんが,数式で示せる部分はできるかぎり数式による説明を示し,論理がわかりやすくなるように心がけています。また,発展が著しいオフライン強化学習をはじめとする,近年話題となっているトピックの基礎を含めることで,最近の論文を理解するための手がかりを提供することを目指しました。本書を通して,読者の皆様の強化学習への理解が深まれば幸いです。
また,本書の執筆に当たり,加藤泰大氏,阿部陽樹氏,四反田直樹氏には文章や数式の確認などにご協力いただきました。この場を借りて感謝申し上げます。
2025年10月
長 隆之
☆発行前情報のため,一部変更となる場合がございます
1.数学的な準備
1.1 確率
1.1.1 多変数の確率
1.1.2 期待値
1.1.3 最尤法と最小二乗法の関係
1.1.4 最尤法と交差エントロピー損失
1.1.5 偏差と分散
1.2 強化学習でよく使われる情報量
1.2.1 エントロピー
1.2.2 カルバック・ライブラー情報量
1.2.3 forward KL 情報量とreverse KL 情報量
1.2.4 f-ダイバージェンス
1.2.5 Wasserstein距離
1.2.6 相互情報量
1.2.7 エントロピー正則化とボルツマン分布
1.3 ブラックボックス最適化アルゴリズム
1.3.1 reward-weighted regression
1.3.2 クロスエントロピー法
2.強化学習の定式化
2.1 強化学習とはどんなものか
2.2 マルコフ決定過程
2.2.1 マルコフ性とマルコフ決定過程
2.2.2 強化学習とバンディット問題
2.2.3 マルコフ決定過程における軌道の分布
2.2.4 リターン,状態価値関数,行動価値関数
2.2.5 強化学習における行動の探索と方策の評価の基本
2.3 強化学習の種類
2.3.1 オンポリシー型とオフポリシー型
2.3.2 価値関数ベースと方策ベース
2.3.3 オンライン強化学習とオフライン強化学習
2.3.4 モデルフリー強化学習とモデルベース強化学習
2.3.5 エピソードベースとステップベース
2.3.6 強化学習と模倣学習
3.価値関数の学習
3.1 ベルマン方程式
3.1.1 状態価値関数が満たすベルマン方程式
3.1.2 行動価値関数が満たすベルマン方程式
3.1.3 ベルマン最適方程式
3.2 価値関数の推定とベルマン作用素の収束性
3.2.1 SARSA法による行動価値関数の推定
3.2.2 行動価値関数のベルマン作用素の収束性
3.2.3 状態価値関数の推定とベルマン作用素の収束性
3.2.4 ベルマン最適作用素とその収束性
3.3 Q学習
3.3.1 深層Q学習
3.3.2 Q学習における行動価値の目標値の過大推定
3.3.3 行動価値の過大推定への対処法
3.3.4 行動価値の分布を学習するQ学習
3.3.5 優先度付き再生
3.3.6 連続な行動空間のためのQ学習
3.4 偏差と分散のバランスを考慮した累積報酬の計算
3.4.1 リターンの推定における偏差と分散
3.4.2 n-stepリターン
3.4.3 λ-リターン
3.4.4 TD(λ)
3.4.5 generalized advantage estimation
4.オンポリシー型の方策の学習
4.1 方策の学習のアプローチ
4.1.1 価値反復法
4.1.2 方策反復法
4.2 方策勾配法
4.2.1 サンプリングベースの方策勾配の導出
4.2.2 REINFORCEアルゴリズム
4.2.3 REINFORCEアルゴリズムにおける方策勾配の偏差と分散
4.3 近似した価値関数を用いた方策勾配法
4.3.1 価値関数を用いた方策勾配の導出
4.3.2 関数近似を用いた方策勾配による方策の学習
4.3.3 actor-critic法における適合的な関数近似
4.3.4 ベースライン関数を用いた分散低減
4.4 自然方策勾配とKL情報量に基づく拘束を用いた方策の更新
4.4.1 自然勾配
4.4.2 自然方策勾配
4.4.3 重要度サンプリングを用いた方策勾配
4.4.4 KL 情報量の拘束を用いた方策勾配
4.4.5 trust region policy optimization(TRPO)アルゴリズム
4.4.6 proximal policy optimization(PPO)アルゴリズム
4.5 オンポリシー型のアルゴリズムの実験的比較
5.オフポリシー型の方策の学習
5.1 決定論的方策を用いたアルゴリズム
5.1.1 決定論的方策
5.1.2 決定論的方策に対する方策勾配
5.1.3 deep deterministic policy gradient(DDPG)
5.1.4 twin delayed deep deterministic policy gradient(TD3)
5.2 密度推定としての方策学習
5.2.1 リターン重み付き尤度最大化による方策の学習
5.2.2 軌道ベースでの重み付き尤度最大化
5.2.3 ステップベースでの重み付き尤度最大化
5.2.4 正則化付き強化学習と密度推定による方策の学習
5.2.5 密度推定としての方策の学習におけるKL情報量の最小化
5.3 エントロピー正則化付き強化学習アルゴリズム
5.3.1 エントロピー正則化付き強化学習における目的関数および価値関数
5.3.2 soft actor-criticアルゴリズム
5.3.3 エントロピー正則化付き強化学習とボルツマン分布の関係
5.4 KL 情報量による拘束を用いたオフポリシー型actor-critic法
5.4.1 軌道ベースでの議論/relative entropy policy search
5.4.2 ステップベースでのKL情報量に基づく正則化
5.4.3 maximum a posteriori policy optimization(MPO)アルゴリズム
5.5 オフポリシー型actor-critic法の学習効率を高める工夫
5.5.1 サンプル当りの方策の更新回数を効果的に増やすための工夫
5.5.2 行動価値関数の目標値の分布の非対称性に対する工夫
5.6 オフポリシー型のアルゴリズムの実験的比較
6.オフライン強化学習アルゴリズム
6.1 オフライン強化学習の問題設定
6.2 オフライン強化学習における方策に対する正則化
6.2.1 TD3+BC
6.2.2 advantage-weighted actor-critic(AWAC)
6.3 価値関数の学習に対する正則化
6.3.1 conservative Q-learning
6.3.2 behavior regularized actor-critic
6.4 サンプル内学習による価値関数の学習
6.5 データの多峰性に対応した方策モデルの使用
6.5.1 混合モデルを用いた方策
6.5.2 拡散モデルを用いた方策
6.6 密度比に基づいたオフライン強化学習アルゴリズム
6.6.1 フェンシェル共役
6.6.2 密度比推定アルゴリズム:DualDICE
6.6.3 オフラインデータによる方策の更新
6.7 オフライン強化学習アルゴリズムの性能比較
7.モデルベース強化学習
7.1 モデルベース強化学習アルゴリズムの分類
7.2 最適制御に基づくアプローチ
7.2.1 反復型線形二次制御
7.2.2 guided policy search
7.3 近似された状態遷移モデルを用いたモデル予測制御
7.4 仮想的なサンプルによる方策の学習
7.5 状態遷移モデルを通した誤差伝播による方策の学習
7.6 状態遷移モデルの表現と学習
8.発展的話題
8.1 目標条件付き方策とその訓練
8.1.1 目標条件付き価値関数
8.1.2 目標条件付き方策の訓練
8.2 階層型強化学習
8.2.1 階層型方策
8.2.2 階層型強化学習のメリット
8.2.3 階層型強化学習の難しさ
8.2.4 下位方策の事前訓練
8.3 内的報酬による強化学習
8.3.1 状態遷移モデルに基づく内的報酬
8.3.2 試行錯誤データ内の状態の分布に基づく内的報酬
8.4 複数の挙動を同時に学習する強化学習
8.4.1 潜在変数に条件付けられた方策と価値関数
8.4.2 複数の最適な方策を学習するための方策の訓練
8.4.3 メタ強化学習における潜在変数に条件付けられた方策の訓練
8.5 マルチモーダルな生成モデルと強化学習
8.5.1 ロボティクスにおける状態と行動を含むデータセット
8.5.2 ロボティクスにおけるマルチモーダルな生成モデル
8.5.3 ロボティクスにおけるマルチモーダル生成モデルの訓練法
8.5.4 ロボティクス分野における生成モデルの評価
8.5.5 生成モデルの行動生成における役割
8.5.6 強化学習やロボティクスにおける生成モデルに関する考察
引用・参考文献
索引