エントロピーの幾何学
これまでの形式とは異なる情報幾何学(τ-情報幾何学)が作れるということを平易に解説。
- 発行年月日
- 2019/05/10
- 判型
- A5
- ページ数
- 206ページ
- ISBN
- 978-4-339-02835-5
- 内容紹介
- まえがき
- 目次
- レビュー
- 広告掲載情報
【読者対象】
測度論的確率論に興味はあるが専門家になる必要はない学部生・大学院生および研究者を対象としています。
また,情報幾何学のこれまでとは異なる取扱いに興味のある大学院生・研究者も対象としています。
【書籍の特徴】
測度論的確率論では,Radon-Nikodymの定理をvon Neumannによる証明に沿って他書を参照すること無く理解できるように,敢えて冗長な記述を試みました。一般的な数学書とは違って,できるだけ行間を読まないで済むように書いたつもりです。
また,通常の情報幾何学で登場するスコア関数に対する一次独立性の仮定を明確に式で書いておきました(67ページ)。さらに,確率変数による積分とパラメータ(自然座標)による微分が交換できる条件を定理の形で与えておきました(75-77ページ)。通常は,これらのことは正則条件という名の下に明示されないことが多いです。
ところで,いわゆるTsallisエントロピーは,本来ならばHavrda-Charvatエントロピーと言うべきです(123ページ)。この点を指摘した本も少ないと思います。また,この非加法的エントロピーが優加法性と劣加法性のどちらでも満たすように調整できることもあまり知られていないようです。この本では,劣加法性の場合に注目して取り扱っていきますが,スケール変換に対応する座標をうまく追加することで加法性をもつエントロピーに変換できることが具体的に示されます。
【著者からのメッセージ】
最初の1章と2章を焦らずにじっくり納得しながら読んでもらえると,他の測度論的確率論に関する本を読むときにも,かなり敷居が下がると思います。
この本の3章以降は,測度空間に特別な平行移動を導入することで,これまでの形式とは異なる情報幾何学(τ-情報幾何学)が作れるというところがポイントになります。そこでは,マトリョーシカのような確率分布の入れ子構造も登場します。さらには,Fisher計量を部分行列として含むような不定計量が得られるのも面白いところです。もし,Mostowの剛性定理がうまく拡張できてτ-情報幾何学に適用できるようになれば,ここで構成される双曲空間の剛性とFisher計量の一意性についても何か言えるようになるはずですが,どなたか興味のある方はチャレンジしてみませんか?
情報科学において,データの入出力関係やノイズそのものに対して確率モデルを考えることは,いまや常識となって久しい。さらに,深層学習の発展により,なぜ深層学習がうまく機能するのかという理論的解析やそのアルゴリズムの改良に際してもいまでは確率・統計的な考察は必要不可欠なものとなっている。
ところで,確率モデルを考えるうえで,これまで考えられてきたものはおもに指数型分布族が中心であった。しかし,自然言語処理で前処理として重要な役割を持っているword2vecの高速化のために登場してきたnegative samplingの手法では,負例の登場確率が小さなものでもある程度選ばれやすくするために,その確率をべき乗した後,規格化して得られるエスコート分布を用いることで,さらなる性能の向上が図られている。さらに,通常generative adversarialnetwork(GAN)の学習は不安定になりやすいが,安定した学習が可能なWasserstein GANが提案されたことにより,指数型分布族のみならず非指数型分布族も容易に考察することができるようになってきた。このような状況のなか,確率モデルとしてニューラルネットワークを考えるとき,確率・統計の取扱いについてある程度深く知っておくことが重要になってきている。特に,海外の研究者の書く関連分野の論文等では,測度論的確率論に基づく記述も非常に多い。一方,国内に目を向ければ,むしろ避けられているようでさえある。このような状況を少しでも改善し,さらに確率モデルを記述し,そのモデルについて考察することを容易にするためには,どこかで一度必要な範囲で測度論的確率論に触れる必要がある。そこで本書では,測度論的確率論を,Radon-Nikod´ym の定理の証明を理解することを目標に紹介することにした。このRadon-Nikod´ymの定理は,確率密度関数が存在することを保証するものとして見ることもできるが,現代では条件付き確率の存在を保証する定理として,より重要性を増している。他書を参照することなく,本書のみで理解できるように丁寧な式変形と解説を心掛けたが,うまくいっただろうか。
さらに,パラメトリックな確率モデルを考えるときに必要になる母数(分布を特徴付けるパラメータ)の推定に関して必要となる十分統計量の説明も行った。この部分は,文献18) のpp.1–7に基づいているが,定義や定理等の書き方および証明については,文献19) のpp.111–120を参考にしている。しかし,どちらも初めて数理統計学に接する者には読みにくいため,より証明を詳細に記述することで,できるだけ行間を読まなくても済むように配慮した。
さて,確率モデルを考えるうえで,まず必要になることは確率分布についての知識である。指数型分布族に関しては,甘利俊一氏により整理され発展してきた指数型分布族に対する情報幾何学が,その後,多くの研究者によりいまも活発に研究されている。この情報幾何学を用いることで,推定量の有効性やem アルゴリズム,ターボ符号,Boltzmann machineやニューラルネットワークの情報幾何学など多くの展開がなされている。そこで重要な役割を演じるのは拡張された一般化Pythagorasの定理である。この定理の威力により,さまざまな問題が幾何学的に理解できるようになり,直感的な理解が可能となっている。すなわち,e-射影とm-射影による交互正射影である。
一方で,非指数型分布族については,いまだ定番となった幾何学は存在していない。そこで本書では,測度空間に特別な平行移動を導入することでアファイン空間を構成し,そのうえで幾何学を展開することにより指数型分布族と非指数型分布族を同時に取り扱うことができるような枠組みを提供することで,確率分布族についての普遍的な性質をとらえるための舞台を紹介することにした。この型の情報幾何学を甘利らの情報幾何学と区別するためにτ -情報幾何学と呼んでいるが,読者が甘利らの情報幾何学に関する書籍であると勘違いすることを恐れたため,本書のタイトルは“エントロピーの幾何学” とした。本書で紹介するτ-情報幾何学は,甘利らの情報幾何学とは,τ =1のときにα=1,τ=0のときにα=−1に対応している。しかし,パラメータτとαとでは,その役割がまったく異なることに注意する必要がある。パラメータτは確率分布族を決定し,さらにエントロピーやダイバージェンスも決定してしまう。これに対してパラメータαは双対接続を表現するために導入され,α-ダイバージェンスのパラメータα とは無関係に設定することができる。最近では,甘利らの情報幾何学は,江口真透氏により提案されたものであるが,まず凸関数を一つ与え,それに基づいてダイバージェンスを構成し,このダイバージェンスからさまざまな幾何学的量を導出していくスタイルが主流である。
最後に,本書の測度論的確率論の部分と十分統計量の部分を丁寧に読み貴重なコメントをお寄せいただいた福岡大学の天羽隆史氏に感謝いたします。もし,その部分に誤り等があればもちろん筆者の責任であることはいうまでもないことである。また,本書の執筆を勧めていただいた広島大学の栗田多喜夫氏に感謝いたします。最後に,コロナ社には,筆者の遅筆にも関わらず辛抱強く待っていただいたことに感謝いたします。
2019年3月 田中 勝
1. 本書の構成
2. 測度と確率
2.1 可測空間と測度空間
2.2 用語の一般的な定義
2.3 Rieszの表現定理
2.4 Radon-Nikodymの定理
2.4.1 Lebesgueの分解定理の証明
2.4.2 Radon-Nikodymの定理の証明
2.5 確率測度
2.6 Dirac測度と離散確率
3. τ-アファイン空間
3.1 τ-関数
3.2 τ-アファイン構造
3.2.1 アファイン空間
3.2.2 平行移動
3.2.3 測度空間
3.2.4 十分統計量
3.3 アファイン座標系とτ-アファイン共役
3.3.1 τ-対数尤度
3.3.2 スコア関数
3.3.3 τ-アファイン共役
4. 経路順序確率
5. 縮約と計量
5.1 縮約
5.2 計量
5.3 Koszul接続と双対接続
5.4 接空間T_{\check{p}}R_Ωの直交分解
5.5 Cramer-Raoの不等式
6. くり込みとエントロピー
6.1 素朴なエントロピー(発散)
6.2 くり込み
6.3 エントロピー(有限)
6.4 縮約と期待値
6.5 Havrda-CharvatエントロピーとRenyiエントロピー
6.6 ダイバージェンス
7. τ-情報幾何学におけるq-正規分布
7.1 q-正規分布
7.2 q-正規分布のBayes表現
8. τ-アファイン構造の多重性
8.1 τ-変換
8.2 q-正規分布のτ-変換
9. 非加法的エントロピー
9.1 恒等式と非加法性
9.2 べき型分布と相互情報量
10. 加法的エントロピーへの変換
10.1 加法性の回復
10.2 スケール座標の役割
11. ホログラフィー原理
11.1 計量とホログラフィー原理
11.2 加法・非加法変換
12. τ-平均
引用・参考文献
索引
読者モニターレビュー【H様】
まえがきを読むと,『エントロピーの幾何学』というユニークなタイトルは,読者が誤って,甘利俊一氏によって創始された情報幾何(指数型分布族という確率分布のある特別なクラスにおける幾何)の本だと勘違いして本書を手にとることを防ぐためにつけたと書かれている。
では,『エントロピーの幾何学』とは,一体どんな種類の幾何について書かれた本なのか? 実は本書は,情報幾何等,これまでの幾何ではうまく取り扱えなかった非指数型分布族の幾何を展開した本なのである。
おりしも世間は,空前の人工知能(AI)ブームに沸いている.多くの研究者の手により開拓されてきた情報幾何の道具たちは,推定量の有効性評価,ニューラルネットの解析,破滅的忘却を防ぐ正則化項など,人工知能研究に欠くことのできないツール群の一翼を担っているため,情報幾何に対する若い人々のまなざしは日に日に熱さを増している。
こうしたなか,本書は,τ-情報幾何と名付けられた新しい幾何を展開する.情報幾何が,正規分布のような,我々にとって馴染みのある確率分布の幾何を教えてくれたように,τ-情報幾何は,q-正規分布などの,べき型の確率分布の幾何を教えてくれる。q-正規分布などのべき型の確率分布は,非加法的エントロピーの世界とつながっていて,そこでは物理学における非平衡現象や,カオス,フラクラルなどがあらわれる.大変魅力的な幾何なのである。
しかも,本書は,スケール変換を駆使して,加法的エントロピーと非加法的エントロピーを行き来する方法を教えてくれる。当たり前のように書かれているが,大学で統計物理を学んだばかりの学部生に,加法的エントロピーと非加法的エントロピーを行き来する方法がある,なんて教えたら,眼をぱちくりさせて驚くだろう。それだけに留まらない。第11章では,このエントロピーの加法・非加法変換が,素粒子論・宇宙論に登場するホログラフィー原理(AdS/CFT対応)と関連することが示唆される。
参考:田中勝先生の講演スライド「非加法的エントロピーを加法的エントロピーにする方法 ーAdS/CFT対応の情報幾何バージョンー 」
[http://www2.itc.kansai-u.ac.jp/~afujioka/talk/tanaka.pdf]
本書を読めば,機械学習,物理,数学の分野で,我々が親しんでいる世界の先に,全く新しい未開の沃野が広がっていたことに気付かされるだろう。
-
掲載日:2024/09/04
-
掲載日:2023/07/01
-
掲載日:2020/06/18
-
掲載日:2020/01/31
-
掲載日:2020/01/29
-
掲載日:2020/01/14
-
掲載日:2019/12/01
★特設サイトはこちらから★
シリーズ刊行のことば,シリーズラインアップ,著者一覧,書籍の特徴,目次,著者からのメッセージ,キーワードがご覧いただけます