自分の研究に関して

自分の研究に関して はコメントを受け付けていません

私が取り組んでいる研究は一言でいえば「俯瞰的学習」の探究です。人間は空間認識能力などに優れ、目で見たり耳で聞いたりした主観的な情報から俯瞰した環境を想像できます。俯瞰的学習とは、そうした主観的な観測情報から全体最適な戦略を学習することです。
具体的には、強化学習、マルチエージェントシステムを主軸として以下の研究に取り組んでいます。その他にもデータ工学や宇宙、医療系など学際的な研究も続けています。


マルチエージェント強化学習と理論の融合

概要

一般的に強化学習は理論的証明が難しいとされています。その理由は、多腕バンデット問題のようにシングルステップの問題であれば違いますが、基本的に強化学習は複数の行動を組み合わせて初めて目的を達成するマルチステップの問題だからです。結果として、最終的なエージェントの行動の収束に関しては保証されるものの学習過程の最適性は保証されません。皆さんも迷路を解く時に最終的に通った経路が正しいかどうかはわかりますが、正しい経路をどうやって導くのが最適かはわかりませんよね?強化学習の最適性はそれと同じ問題を抱えています。まして複数のエージェントが個々に動作するマルチエージェントシステムでは、行動の収束でさえも基本的に保証されておらず、最適かどうかも保証されていません。ここでは、マルチエージェント強化学習の理論的保証を目指して部分的にでもその収束や最適性を保証し、または既存の理論との融合による新たな展開を考えて研究しています。
ここでは、マルチエージェント強化学習の構造の理論的な理解を促進し、俯瞰的学習を実現するための基礎となる理論やメカニズムを創出します。

関連する業績

  1. 上野 史, 髙玉 圭樹. 目的制限に基づく通信なしマルチエージェント協調行動学習とその効果の証明, 電気学会論文誌C, 140巻, 1号, 2020, pp. 75-84. ダウンロードはこちら
  2. Fumito Uwano, Naoki Tatebe, Yusuke Tajima, Masaya Nakata, Tim Kovacs, and Keiki Takadama. “Multi-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem,” SICE Journal of Control, Measurement, and System Integration (SICE JCMSI), vol. 11, no. 4, 2018, pp. 321-330. ダウンロードはこちら

進化的機械学習による認識のエイリアシングを持つロボットの最適戦略学習と知識生成

概要

皆さんは見間違いをしたことがありますか?実はロボットも見間違いをします。そしてそれは我々よりもかなり深刻な問題を引き起こします。学術的には知覚エイリアシング(Perceptual Aliasing)といい、学習中に発生すれば今まで学習した結果が適切かどうかが担保されなくなり、ロボットが意図したこととは全く異なる挙動を始めます。ここでは、進化的機械学習であるLearning Classifier System (LCS)を利用して知覚エイリアシングが発生する環境の下での最適戦略の学習を実現します。具体的には、学習した内容をif-thenルールの形式(もし…ならば…するという形式)で一般的な知識として保持することで知覚エイリアシングによる認識の違いによる影響を軽減し、また過去の情報を活用したマップを構築することで環境を俯瞰して知覚エイリアシングを検知し解決します。
(Queensland University of TechnologyのProf. Will N. Browneとの国際共同研究)

関連する業績

  1. Fumito Uwano and Will N. Browne. “Cognitive Learning System for Sequential Aliasing Patterns of States in Multistep Decision-Making,” in Proceedings of Genetic and Evolutionary Computation Conference Companion 2024 (GECCO2024), Melbourne, Australia, Jul. 2024. (to appear)
  2. Fumito Uwano and Will N. Browne. “Hierarchical Frames-of-References in Learning Classifier Systems,” in Proceedings of Genetic and Evolutionary Computation Conference Companion 2023 (GECCO2023), Lisbon, Portugal, Jul. 2023, pp. 335-338. ダウンロードはこちら

マルチロボットシステムにおける強化学習

概要

マルチエージェント強化学習は、通常同期的に動作するなどの理想的な環境を前提として機能します。つまり全てのエージェントが同時に動くつもりでここのエージェントは学習するなど、通常では起こらない動作を想定してします。しかし、複数ロボットにおいてはその理想的な環境を保証できないことは多々あります。ここでは、複数ロボットを協調的に動作するような強化学習を実現するために、実ロボットで発生する制約を含めたリアルなモデルでの強化学習を実現します。具体的には、ロボット間の通信モデルの構築やそれを利用した強化学習の提案などを想定しています。特に、近年ではロボットはただ動くだけではなく、インターネットを利用してセキュリティやサービスの提供など様々なタスクをこなすことができるようになっていますが、強化学習でその全てを制御することは現状不可能です。そのため、複数の高性能ロボットの協調動作の獲得もここではターゲットにしています。
(岡山大学林准教授および埼玉大学原田准教授との共同研究)

関連する業績

  1. Fumito Uwano. “Learning Agents for Robotics: Trend and Next Challenge,” Journal of Robotics and Mechatronics (JRM), vol 36, no. 3, 2024. (to appear)
  2. Fumito Uwano and Keiki Takadama. “Reward Value-Based Goal Selection for Agents’ Cooperative Route Learning Without Communication in Reward and Goal Dynamism,” SN Computer Science, vol 1, no. 3, 2020, 18 pages. ダウンロードはこちら

強化学習を用いた自然言語文の意味的理解

概要

近年、ロボットに限らずAIの役割が飛躍的に大きくなってきています。皆さんもChatGPTを利用されたことがあるかと思いますが、ChatGPTは強化学習技術を活用して人とのスムーズな会話を実現しています。しかしそれに伴った問題も発生してきております。例えば、発言の信頼性に欠ける点やChatGPTそのものに対する信頼性、利用する際の権利の問題など様々です。その理由は強化学習技術がまだ信頼性には不十分で特に昔のことをすぐに忘れてしまうからだと考えています。ここでは、自然言語を利用した強化学習技術そのものを探求し、特に我々が当たり前にできている「行間をよむ」などの自然言語文の意味的理解を促進する強化学習を新たに構築することを目指しています。

関連する業績

  1. Ryota Kubo, Fumito Uwano, and Manabu Ohta. “Reward Design for Deep Reinforcement Learning Towards Imparting Commonsense Knowledge in Text-based Scenario,” in Proceedings of the 16th International Conference on Agents and Artificial Intelligence (ICAART 2024), Roma, Italy, Feb. 2024, pp. 1213-1220. ダウンロードはこちら