強化学習: Reinforcement Learning (RL)

そもそも強化学習とは?

強化学習(Reinforcement learning: RL)は人間や動物の持つ試行錯誤による学習に基づいた学習法です.

例えば飲食店でメニューを選ぶときに,好物を選ぶことがあると思いますが,それは以前似た料理を食した際の経験に基づいた強化学習といえます.また,喫茶店の新メニューを食べてみておいしければ次も同じものを頼むでしょう.それも以前食べた経験上美味しいことが学習されているため,頼むわけですね.強化学習は,このようなある特定の課題を解決するために,以前の経験を利用する技術というわけです.

ここで何人かの人は,なぜこのような仰々しい名前まで付けて研究分野としているのか?という疑問がわくと思います.その理由は解決すべき課題にあります.強化学習の目指す問題は上記のように単純なものから,例えば組織運営の戦略などの高度な意思決定に至るまで多岐にわたるものです(上記の例でも好きなメニューが増えれば,どれが一番良いのか判断が難しくなると思います.)そのため,強化学習の研究分野は存在しています.この技術は現状持つデータ(先人の知恵)を次にどう活かしていくのか?それを考える研究分野となっております.

強化学習の技術(Q学習を例にして)

強化学習と一息に言っても多々手法が存在するので,ここでは代表的手法としてQ学習の説明をすることで,強化学習が技術的にどういうものかを理解してもらいたいと思います.
\( Q(s,a)\leftarrow Q(s,a) + \alpha \left[r+\underset{a^\prime \in A}{\max} Q(s^\prime,a^\prime) – Q(s,a) \right] \)