自律的行動創発システムと身体性 - 機械獣の構成論 -
ロボットにおける恒常性という観点に基づく行動創発を構成論的に追求した。
- ジャンル
- 発行年月日
- 2026/01/16
- 判型
- A5
- ページ数
- 236ページ
- ISBN
- 978-4-339-03402-8
- 内容紹介
- まえがき
- 目次
【読者対象】
本書は,工学系の大学院生・学部生,ロボット工学や強化学習,ロボット学習等の関連分野,制御系としてみた生体に関心を持つ研究者・技術者を幅広く対象としています。
【書籍の特徴】
ロボットにおける恒常性という観点に着目し,これに基づく行動創発を「作ることによって理解する」構成論的アプローチで追求しています。「エージェントが身体の内部状態を保つための行動最適化」という,ただ一つの技術に焦点を当て,外在的に定められた意味や目的を持たない生活体としての自律機械を機械獣と呼んで位置づけ,基盤技術を構築するとともに,関連する研究の歴史と重要性,そしてその将来的な可能性について解説しました。
【各章について】
1章では,本書を読み進めるにあたり重要な概念である恒常性について説明します。
2章では,機械獣の文脈に位置づけられ,特に生存の問題を扱った研究の歴史を概観します。
3章では,マルコフ決定過程での強化学習の紹介から始め,続けてより一般的な状況について紹介します。
4章では,機械獣の基盤技術である恒常性強化学習とその数理について紹介します。
5章では,これまでの先行研究における生存エージェント研究と恒常性強化学習の限界を乗り越えることを目的として,機械獣の基礎技術となる深層恒常性強化学習を確立します。
6章では,実ロボットでの機械獣として深層恒常性強化学習を展開していきます。
7章では,ここまでの解説を基礎とした展開として,「恒常性強化学習特有の性質に着目したネットワーク構造」,「恒常性を原理とした動物行動のモデリング」,「予測制御としてのアロスタシス」,「恒常性に基づく動機づけが持つ多様な行動の創発能力」について紹介します。
8章では,本書での機械獣研究の限界を明確にし,将来への展望を考察します。
【著者からのメッセージ】
本書を通して生物学を超えて,人工知能・ロボティクス・計算論的神経科学を始めとした,恒常性と一見結びつきにくい諸分野において恒常性の概念とその応用に思いを巡らせていただけるようであれば,著者にとって望外の喜びである。
【キーワード】
強化学習,機械学習,制御工学,身体性,計算論的神経科学,動物行動学,ロボティクス
☆発行前情報のため,一部変更となる場合がございます
草むらにいる鈴虫を拾って,虫かごに入れる。虫かごにキュウリを入れて適切な環境を与えてやると,虫は虫なりに適応して,その中での生活をわれわれに見せてくれる。ペットショップで一目惚れした柴犬を家に連れてくると,徐々に餌や散歩のルールを覚えて家になじみ,家の中で生きる愛らしい姿を見せてくれる。彼らは,生きているかのように動きを演じているのではなく,確かに生きていて,生きるために必要な動きを生み出すことで環境や自らの身体に適応し生活を営んでいる。彼らは,それぞれの環境で生きていく上で必要な行動を創発するための要件を満たしている点で同等であって,違いはその身体的制約と生活する環境,そして認知能力であり,それらは相互に依存し合っている。
動物が見せるこのような姿のように,ロボットもまたあたかも生きているかのように動かすのではなく,何らかの基準で「ロボットが生きている」ことを定義して,そこから生きるために必要な動きをロボットに自律的に獲得させることは可能だろうか?また,そのようなエージェントは逆に,実際の動物について何らかの類似性を見せるのだろうか?
本書は,このような問いに対してロボットにおける恒常性という観点に着目し,これに基づく行動創発を構成論的アプローチで追求するものである。ここで恒常性とは,身体の内部の重要な値をできるだけ所定の範囲に保とうとするプロセスである。構成論とは,現象を「作ることによって理解する(understanding by building)」アプローチとも呼ばれ,着目した現象を発生し得る機構を仮説的に構成し,実際に動作させることを通して適切な機構を探求する。
本書は「エージェントが身体の内部状態を保つための行動最適化」という,ただ一つの技術を扱う。この技術を成立させる上で,機械学習・計算論的神経科学・生理学・伝熱工学・ロボティクス・栄養生物学・温度生物学・動物行動学・理論生物学の知見を統合し,統合された自律ロボットを構成する。また本書は,工学的に明確なタスク解決を目的としたロボットとは概念的に区別された,外在的に定められた意味や目的を持たない生活体としての自律機械を機械獣と呼んで位置づけ,基盤技術を構築するとともに,関連する研究の歴史と重要性,そしてその将来的な可能性について議論する。
本書の執筆のきっかけをいただいた谷口忠大氏(京都大学)と大黒達也氏(東京大学)に厚く御礼を申し上げる。強化学習の理論について最終的な確認をしていただき,全体の文章に対して建設的な意見をいただいた大塚誠氏(LiLz株式会社)に感謝を伝えたい。また本書の草稿を確認していただき,研究会等々にて建設的な数々の意見・感想をいただいた堀部和也氏(理化学研究所),鈴木啓介氏(北海道大学,人間知・脳・AI研究教育センター)に深く感謝する。本文については谷口忠大氏と大黒達也氏にも助言をいただき,序論の無意味性・無目的性の可能性に関しては美術家の鮫島ゆい氏との議論がたいへん参考になった。謹んで御礼を申し上げる。本書の基になったのは筆者の博士論文「恒常性に基づく自律エージェントの行動創発に関する構成論的研究」である。東大情報理工学系研究科での博士課程では國吉康夫氏(東京大学)に全体のご指導を,金沢星慶氏(東京大学)には日頃から相談に乗っていただき,たいへん充実した博士課程を終えられた。この機会に改めて感謝の意を表したい。
最後に,博士課程を通して筆者の研究をいつも暖かく見守ってくれた両親(倫之,光子)に心から感謝する。
2025年初夏の京都にて
吉田尚人
☆発行前情報のため,一部変更となる場合がございます
1.はじめに
1.1 無目的なロボット
1.2 恒常性に基づく自律ロボットの行動統合とその生成
1.3 サイバネティクスから計算論的神経科学へ
2.人工システムにおける生存
2.1 恒常性の概念
2.2 Ashbyの超安定システム
2.3 先行研究におけるシミュレーション・エージェントの生存・恒常性
2.3.1 動物行動学に基づくアプローチ
2.3.2 人工生命・神経モデリング・進化計算に基づくアプローチ
2.3.3 認知アーキテクチャ・汎用人工知能のアプローチ
2.3.4 計算論的神経科学におけるアプローチ
2.4 先行研究ににおける自律ロボットの生存・恒常性
2.4.1 WAMOEBAシリーズ
2.4.2 動物行動学からのアプローチ・Animatアプローチ
2.4.3 身体性認知科学・自律エージェント設計からのアプローチ
2.4.4 強化学習に基づくアプローチ
2.4.5 ヒューマンロボットインタラクションからのアプローチ
2.5 背景研究を踏まえた本研究の立場
2.6 オートポイエーシスの自律性の議論と本研究の関係,および関心領域
3.強化学習
3.1 エージェント・環境相互作用モデル
3.2 MDPのダイナミクスと期待報酬
3.3 価値関数・行動価値関数と最適方策
3.4 MDPにおいてMarkov方策を用いる正当性
3.5 方策勾配に基づく強化学習
3.6 アクター・クリティックアーキテクチャ
3.7 価値関数・アドバンテージ関数の推定
3.8 一般化アドバンテージ推定
3.9 深層強化学習
3.9.1 深層学習の概要
3.9.2 深層強化学習
3.9.3 近接方策最適化法
4.恒常性強化学習
4.1 既存の恒常性に基づく動機づけ行動メカニズムに関する問題点
4.2 恒常性強化学習:恒常性+強化学習
4.3 恒常性強化学習の定式化
4.4 関連するアプローチ
4.5 内受容感覚の模倣学習としての恒常性強化学習
4.6 認知発達ロボティクスにおける動機づけシステムの観点からの位置づけ
4.7 強化学習におけるタスク統合問題との関係
4.8 恒常性強化学習の応用における既存の問題
5.深層恒常性強化学習
5.1 ニューラルホメオスタット
5.1.1 低次元入力ニューラルホメオスタットの構成
5.1.2 画像入力ニューラルホメオスタットの構成
5.1.3 最適化の詳細とハイパーパラメータ
5.1.4 深層恒常性強化学習における終端状態の扱い
5.1.5 恒常性報酬と報酬の基本設定
5.2 先行研究における恒常性報酬
5.2.1 基礎恒常性報酬
5.2.2 バイアス恒常性報酬
5.2.3 カートポール報酬
5.3 報酬補正と補正恒常性報酬の関係
5.4 実験の概要
5.5 実験1:連続モーター制御による2資源環境(TRP)
5.5.1 連続モータ制御条件下での恒常性による採餌行動の獲得
5.5.2 恒常性は採餌に対する報酬のみでは獲得されない
5.5.3 内受容固定法による行動解析
5.6 実験2:体温調節環境(thermal)でのエネルギーと体温の同時制御
5.6.1 連続モータ制御条件下での恒常性による体温制御・採餌行動の同時獲得
5.6.2 内受容固定法による体温制御エージェントの行動解析
5.7 実験3:カメラ画像入力を用いたTRP環境
5.7.1 深層恒常性強化学習の高次元環境でのスケール性の実証
5.7.2 内受容感覚に依存した視覚顕著性
5.7.3 ニューラルホメオスタットの内部表現
5.8 個体性の発現:個別のエージェントの運動傾向
5.9 探索行動の創発可能性
6.機械獣の構成
6.1 なぜロボットを作るのか?
6.2 機械獣の構成へのアプローチ
6.3 機械獣のハードウェア構成
6.4 機械獣の充電条件と実験手順
6.5 出力の構成
6.6 観測情報の構成
6.6.1 内受容感覚の構成Ⅰ:平均モータ温度の定義
6.6.2 内受容感覚の構成Ⅱ:正規化エネルギー
6.7 シミュレータの構成
6.7.1 機械獣・外部環境の動力学シミュレーション
6.7.2 シミュレーションに対する実ロボットの遅延の評価
6.7.3 内部ダイナミクスのモデリングⅠ:モータ温度
6.7.4 パラメータフィッティング
6.7.5 内部ダイナミクスのモデリングⅡ:バッテリー・正規化エネルギー
6.8 深層恒常性強化学習による行動最適化
6.9 機械獣の成立
6.9.1 ハードリセットに伴う温度降下の影響
6.9.2 温度恒常性を含まない場合の体温変化
6.10 内受容感覚を固定することで確認された行動特性
6.10.1 ナビゲーション行動の創発
6.10.2 モータ温度に応じた活動制御
6.10.3 全体的な行動戦略の可視化
7.機械獣研究の展開
7.1 恒常性強化学習特有の性質に着目したネットワーク構造
7.1.1 内受容行動切替え機構・内受容 Mixture of Experts
7.1.2 ベンチマーク環境
7.1.3 結果
7.2 恒常性を原理とした動物行動のモデリング
7.2.1 栄養の幾何学的アプローチと長期的な栄養摂取パターン
7.2.2 対応する代謝ダイナミクスの想定
7.2.3 GFN解析に基づく行動解析
7.2.4 動因の重み付けに応じた採餌傾向の変化
7.3 予測制御としてのアロスタシス
7.3.1 最小アロスタシスモデルの構成
7.3.2 最小アロスタシスモデルの応答
7.4 恒常性に基づく動機づけが持つ行動創発能力の可能性
7.4.1 Homeostatic Crafter
7.4.2 Homeostatic Crafterでの深層恒常性強化学習の概要
7.4.3 恒常性から創発した複雑な手続きを持つふるまい
8.おわりに
8.1 本書の限界と展望
8.2 超長期での活動可能な完全自律認知発達ロボットに向けて
8.3 パーソナルロボットの多様性と機械獣
8.4 機械獣の幸福
付録 定理の証明
引用・参考文献
索引









