シリーズ情報科学における確率モデル 2 ボルツマンマシン

シリーズ情報科学における確率モデル 2

ボルツマンマシン

恐神貴行 IBM東京基礎研究所 Ph.D. 著

ボルツマンマシンの基本的な理論から学習方法、そして機械学習や強化学習への用い方について直観的に理解できるよう解説。

ジャンル

発行年月日: 2019/02/22

判型: A5

ページ数: 220ページ

ISBN: 978-4-339-02832-4

在庫あり

2営業日以内に出荷致します。

定価

3,520円(本体3,200円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
レビュー
著者紹介
広告掲載情報

【読者対象】
学部生が読めるレベルを心がけています。ボルツマンマシンを通じて機械学習・強化学習に必要な基礎的な知識が身に着けられます。一方で，網羅的ではありませんが，ボルツマンマシンに関する幅広い話題を取り上げているので，ボルツマンマシンや関連分野の研究者が読んでも新たな気付きが得られることを期待しています。

【書籍の特徴】
ボルツマンマシンという一つの確率モデルに限定して、機械学習・強化学習への幅広い適用方法について説明しています。ボルツマンマシン以外のモデルを機械学習・強化学習に用いる際にも有用な、確率的勾配法や強化学習の基礎について特に丁寧に説明しています。

【各章について】
各章での説明の流れを簡単に説明します。
1章では，「ボルツマンマシンとはなにか」，「学習するとはどういうことか」，「学習によってなにができるようになるのか」をテーマとして解説を行います。また，ボルツマンマシンは，「勾配法」や「確率的勾配法」を適用して学習することが多いので，これらの基礎についての確認も行います。
2章では，ボルツマンマシンを勾配法で学習する際に必要となる勾配や，勾配法に有用な情報を与えるヘッセ行列を具体的に導出します。なお，ボルツマンマシンの学習は一般には計算量的に困難であるため，何かしらの近似をするか，ボルツマンマシンの構造を限定する必要があります。この計算困難さを克服する「制限ボルツマンマシン」について，本章で解説します。
3章では，ボルツマンマシンが定める確率分布の期待値を近似的に評価します。ボルツマンマシンは確率分布を定めますが，この確率分布に関する期待値の評価が学習に必要となります。ただし，一般にはこの期待値を閉形式で書くことはできず，期待値を厳密に評価するのは計算量的に困難であるため，ここでは近似的に評価を行います。また，制限ボルツマンマシンが持つ構造を利用すると，近似に必要な計算を効率的に行えるようになることについても確認します。
ボルツマンマシンと関連する代表的な深層ニューラルネットワークに「深層信念ネットワーク」と「深層ボルツマンマシン」があり，これらのニューラルネットワークは多数の層からなります。4章では，これらについて，制限ボルツマンマシンを用いて層ごとに学習していく手法を解説します。これは深層学習が注目されるきっかけとなった手法です。
5章ではボルツマンマシンを用いた時系列モデルの解説を行います。ボルツマンマシンの構造を工夫すると，複数のパターンが時間の順番に並んだ時系列データを学習して，将来の値の予測などに使えるようになります。
時系列データは順番に観測されていきますが，データが生成される環境が時間とともに変化する場合には，その変化に合わせて時系列モデルを更新していく必要があります。6章では，各時点で観測されるパターンに基づいて，モデルのパラメータを逐次的に更新するオンライン学習について解説します。このオンライン学習を効率的に行うのが「動的ボルツマンマシン」です。
7章ではボルツマンマシンがどのように強化学習に使えるのかを解説します。強化学習では候補となる行動の数が多いと効率的な使用が難しくなりますが，ボルツマンマシンを用いることでこの難しさが解消されます。強化学習の基礎となるマルコフ決定過程から説明を始め，ボルツマシンを強化学習に適用していきます。強化学習の基礎的な内容も学べます。

【著者からのメッセージ】
できるだけ直感的な理解が得られるように説明を工夫しました。これまで分からなかったことが「分かった」「なるほど」と思っていただける箇所があれば幸いです。

筆者とボルツマンマシンとの出会いは2013年のことである。その前にも何度かすれ違っていると思うが，出会いには至っていない。そのころ「複数の選択肢から人がなにを選択するかをデータから学習する」という研究テーマに取り組んでいた。筆者が考えていたモデルをボルツマンマシンとして定式化してさらに拡張してくれたのが大塚誠氏である。また，大塚氏が取り組んでいた動的ボルツマンマシンの研究にも一緒に取り組むようになった。それからボルツマンマシンに関係する研究を行ってきて，2017年には人工知能の国際会議International Joint Conference on Artificial Intelligence（IJCAI-17）においてチュートリアルも実施した。

その過程で，ボルツマンマシンに関する既存研究を調査し，それを筆者が納得できるように理解しようと努めてきた。その中で筆者が理解したことを，筆者の言葉でまとめたのが本書である。その結果，勾配法から強化学習まで広範な話題を扱いつつ，その中のいくつかの話題については深く掘り下げることになった。深く掘り下げた話題については，結果を導出するだけでなく，直感的な理解が得られるように努めた。これは，難しい事柄を真に理解させてくれた書籍の影響を受けたものであり，Vaˇsek Chv´atal，Mor Harchol-Balter，SheldonM. Ross，Steven E. Shreveといった著者の影響を強く受けている。これらの著者の域には残念ながら達していないが，直感的な理解を助けるような説明を本書にもいくつか取り入れられたと思う。

本書はボルツマンマシンに関する話題を網羅的に集めたものではないが，ボルツマンマシン・機械学習・強化学習に関わる重要な話題を盛り込んでいる。ボルツマンマシンに関するいくつかの話題は深く掘り下げているが，簡単に触れただけの話題もあり，まったく触れていない話題も多くある。参考文献をできるだけ挙げるようにしたので，これらで補足してほしい。また，ボルツマンマシンを用いた機械学習が本書の中心的なテーマではあるが，正則化などの機械学習の一般的な技術についてはほとんど触れておらず，ボルツマンマシンに特有な点を中心に取り上げている。本書を読み進めるうえで機械学習の知識は必要ではないが，ボルツマンマシンを機械学習の実問題に適用するには，本書の内容だけでは不十分である。優れた書籍が多くあるので,これらで機械学習を学んで欲しい。一方で，強化学習は基礎的な事柄から説明を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを説明するのが難しいこともあるが，筆者の興味によるところも大きい。結果的に，7章は強化学習の入門にもなる内容になっている。

原稿に目を通していただき，詳細にコメントをくださった吉住貴幸氏に深く感謝いたします。

2018年12月　恐神貴行

1.　はじめに
1.1　ボルツマンマシンと深層学習
1.2　ボルツマンマシンの定義
1.3　ボルツマンマシンの可能性
1.4　学習の目的関数
1.5　勾配法
1.6　確率的勾配法
章末問題

2.　ボルツマンマシンの学習
2.1　可視ユニットのみの場合
　2.1.1　勾配
　2.1.2　確率的勾配
　2.1.3　ヘブ則との関係
　2.1.4　ヘッセ行列
　2.1.5　まとめ
2.2　隠れユニットを持つ場合
　2.2.1　隠れユニットの必要性
　2.2.2　自由エネルギー
　2.2.3　勾配
　2.2.4　確率的勾配
　2.2.5　ヘッセ行列
　2.2.6　まとめ
2.3　判別モデルの学習
　2.3.1　目的関数
　2.3.2　勾配とヘッセ行列
　2.3.3　まとめ
2.4　回帰モデルの学習
　2.4.1　自由エネルギーを用いた回帰
　2.4.2　制限ボルツマンマシンの自由エネルギー
　2.4.3　期待エネルギー
　2.4.4　期待エネルギーを用いた回帰
章末問題

3.　サンプリングと期待値の評価
3.1　ギブスサンプリング
3.2　コントラスティブダイバージェンス
3.3　制限ボルツマンマシンからのサンプリング
　3.3.1　ブロック化ギブスサンプラー
　3.3.2　生成モデルの学習
3.4　平均場近似
3.5　その他の手法
　3.5.1　重点サンプリング
　3.5.2　独立した生成器の利用
　3.5.3　フィッシャーダイバージェンス
章末問題

4.　深層モデルとその他の関連するモデル
4.1　深層信念ネットワーク
　4.1.1　確率分布とサンプリング
　4.1.2　層ごとの貪欲学習法
　4.1.3　自己符号化器
4.2　深層ボルツマンマシン
4.3　ガウスボルツマンマシン
　4.3.1　期待値で実数値を表現する場合の問題点
　4.3.2　ガウスベルヌーイ制限ボルツマンマシン
　4.3.3　スパイクスラブ制限ボルツマンマシン
4.4　マルコフ確率場
　4.4.1　ボルツマンマシンとイジングモデル
　4.4.2　高階ボルツマンマシン
章末問題

5.　時系列モデルの学習
5.1　目的関数と勾配法
5.2　条件付き制限ボルツマンマシン
　5.2.1　条件付き制限ボルツマンマシンの導出
　5.2.2　条件付き制限ボルツマンマシンの拡張
5.3　再帰的時間的制限ボルツマンマシン
　5.3.1　時間的制限ボルツマンマシン
　5.3.2　再帰的時間的制限ボルツマンマシンの導出
　5.3.3　再帰的時間的制限ボルツマンマシンにおける確率の評価
　5.3.4　再帰的時間的制限ボルツマンマシンの学習
章末問題

6.　時系列モデルのオンライン学習
6.1　はじめに
6.2　動的ボルツマンマシン
　6.2.1　有限動的ボルツマンマシン
　6.2.2　動的ボルツマンマシンの導出
　6.2.3　スパイク時間依存可塑性との関係
6.3　制約の緩和
6.4　連続値をとる時系列に対する動的ボルツマンマシン
　6.4.1　ガウス動的ボルツマンマシン
　6.4.2　自然勾配
　6.4.3　非線形特徴量
6.5　動的ボルツマンマシンの連続拡張
章末問題

7.　強化学習
7.1　マルコフ決定過程
7.2　最適性方程式と価値反復法
　7.2.1　有限期間の場合
　7.2.2　無限期間の場合
7.3　Q学習
7.4　活用と探索
7.5　SARSA法
7.6　方策反復法
7.7　価値関数の近似
　7.7.1　Q学習での関数近似
　7.7.2　SARSA法での関数近似
7.8　自由エネルギーを用いた強化学習
　7.8.1　自由エネルギーの勾配
　7.8.2　ボルツマン探索
7.9　部分観測環境における強化学習
　7.9.1　部分観測マルコフ決定過程
　7.9.2　動的ボルツマンマシンによる強化学習
章末問題

付録：隠れユニットを持つ動的ボルツマンマシン
A.1　確率分布
A.2　学習則

引用・参考文献
章末問題解答
索引

amazonレビュー

レビュー,書籍紹介・書評掲載情報一覧

恐神貴行（オソガミタカユキ）

1998年、東京大学工学部電子工学科卒業。2005年、カーネギーメロン大学コンピュータサイエンス学科にて博士号（Ph.D. in Computer Science）を取得。これまでに、日本オペレーションズ・リサーチ学会文献賞奨励賞（2010年）、待ち行列研究部会論文賞（2015年）などを受賞し、2020年には「科学技術への顕著な貢献2020（ナイスステップな研究者）」に選出された。
1998年よりIBM東京基礎研究所に所属し、最適化、確率モデル、逐次的意思決定、強化学習、ボルツマンマシン、メカニズムデザインなどの研究に従事。現在は、これらの技術のさらなる発展に加え、AIモデルの安全性への応用に関する研究にも取り組んでいる。