私が取り組んでいる研究は一言でいえば「俯瞰的学習」の探究です。人間は空間認識能力などに優れ、目で見たり耳で聞いたりした主観的な情報から俯瞰した環境を想像できます。俯瞰的学習とは、そうした主観的な観測情報から全体最適な戦略を学習することです。
具体的には、強化学習、マルチエージェントシステムを主軸として以下の研究に取り組んでいます。その他にもデータ工学や宇宙、医療系など学際的な研究も続けています。
一般的に強化学習は理論的証明が難しいとされています。その理由は、多腕バンデット問題のようにシングルステップの問題であれば違いますが、基本的に強化学習は複数の行動を組み合わせて初めて目的を達成するマルチステップの問題だからです。結果として、最終的なエージェントの行動の収束に関しては保証されるものの学習過程の最適性は保証されません。皆さんも迷路を解く時に最終的に通った経路が正しいかどうかはわかりますが、正しい経路をどうやって導くのが最適かはわかりませんよね?強化学習の最適性はそれと同じ問題を抱えています。まして複数のエージェントが個々に動作するマルチエージェントシステムでは、行動の収束でさえも基本的に保証されておらず、最適かどうかも保証されていません。ここでは、マルチエージェント強化学習の理論的保証を目指して部分的にでもその収束や最適性を保証し、または既存の理論との融合による新たな展開を考えて研究しています。
ここでは、マルチエージェント強化学習の構造の理論的な理解を促進し、俯瞰的学習を実現するための基礎となる理論やメカニズムを創出します。
皆さんは見間違いをしたことがありますか?実はロボットも見間違いをします。そしてそれは我々よりもかなり深刻な問題を引き起こします。学術的には知覚エイリアシング(Perceptual Aliasing)といい、学習中に発生すれば今まで学習した結果が適切かどうかが担保されなくなり、ロボットが意図したこととは全く異なる挙動を始めます。ここでは、進化的機械学習であるLearning Classifier System (LCS)を利用して知覚エイリアシングが発生する環境の下での最適戦略の学習を実現します。具体的には、学習した内容をif-thenルールの形式(もし…ならば…するという形式)で一般的な知識として保持することで知覚エイリアシングによる認識の違いによる影響を軽減し、また過去の情報を活用したマップを構築することで環境を俯瞰して知覚エイリアシングを検知し解決します。
(Queensland University of TechnologyのProf. Will N. Browneとの国際共同研究)
マルチエージェント強化学習は、通常同期的に動作するなどの理想的な環境を前提として機能します。つまり全てのエージェントが同時に動くつもりでここのエージェントは学習するなど、通常では起こらない動作を想定してします。しかし、複数ロボットにおいてはその理想的な環境を保証できないことは多々あります。ここでは、複数ロボットを協調的に動作するような強化学習を実現するために、実ロボットで発生する制約を含めたリアルなモデルでの強化学習を実現します。具体的には、ロボット間の通信モデルの構築やそれを利用した強化学習の提案などを想定しています。特に、近年ではロボットはただ動くだけではなく、インターネットを利用してセキュリティやサービスの提供など様々なタスクをこなすことができるようになっていますが、強化学習でその全てを制御することは現状不可能です。そのため、複数の高性能ロボットの協調動作の獲得もここではターゲットにしています。
(岡山大学林准教授および埼玉大学原田准教授との共同研究)
近年、ロボットに限らずAIの役割が飛躍的に大きくなってきています。皆さんもChatGPTを利用されたことがあるかと思いますが、ChatGPTは強化学習技術を活用して人とのスムーズな会話を実現しています。しかしそれに伴った問題も発生してきております。例えば、発言の信頼性に欠ける点やChatGPTそのものに対する信頼性、利用する際の権利の問題など様々です。その理由は強化学習技術がまだ信頼性には不十分で特に昔のことをすぐに忘れてしまうからだと考えています。ここでは、自然言語を利用した強化学習技術そのものを探求し、特に我々が当たり前にできている「行間をよむ」などの自然言語文の意味的理解を促進する強化学習を新たに構築することを目指しています。