最適性理論の強化学習


ニューラルネットワークの強化学習とは、お手本となる教師信号の存在しない状況下で最適政策を求めるアルゴリズムです。元々工学的な利用のために開発されたアルゴリズムなのですが、近年の研究において実際の生物の脳内(特に大脳基底核)で行われていることが示唆されました。その影響をうけて脳内における強化学習のモデルも数多く発表されています。しかし、戦略等のパラメータが実際に存在に対するのかといった疑問や、強化学習で使われているモデルがmodel freeである等の問題は残っています。

我々はいろいろ行動が取れる空間に放り投げ出されます。どんな行動をとったらいいかはわかりません。でも行動をとると褒められたり怒られたりします。そしてできるだけいっぱい褒めてもらおうとします。

現在私たちの身の回りには多くの機械が溢れています。しかし、人間が行っている情報処理と比べとまだまだ未熟であると言わざるを得ません。その内の一つが未知なる環境での学習能力なのです。

強化学習とは未知な環境において、試行錯誤を繰り返し、出来る限り多くの報酬を得られるような行動を学習するアルゴリズムです。教師あり学習と異なり、行動系列事態を自ら編み出していく点が特徴的であります。元々強化学習は工学的に発達してきましたが、最近の研究によって強化学習が実際の脳内でも行われていると示唆するような実験結果が得られており、brain scienceの分野でも大きく取り扱われるようになっています。

歴史的に見た場合、ニューラルネットワークの強化学習は80年代前半に次に述べる3つの考えをまとめた理論です。
第一は、最適化法である。この分野は制御理論から発達したものです。
第二は、動物が行う学習方法の一つである、Try-and-Errorによる学習理論です。
第三は、TD誤差学習の利用です。
つまり強化学習は行学的に発展してきた理論に実際の動物による学習理論を織り交ぜた理論であります。TD誤差学習(Temporal Difference Learning)とは現在、強化学習として一般的に用いられている手法です。です。TD学習とは自分自身の評価を行い、それを更新するための手法を提案するものです。TD学習ではTD誤差と呼ばれるものを用いて、この誤差を0に近づけていくという方法で学習を進めます。TD誤差とは現在の状態の評価値と実際に行動してみてその状態の評価が正しかったかどうかという誤差になります。

この強化学習は脳の大脳基底核と密接な関係があります。それは大脳皮質の深部に位置する一連の神経核の集まりの総称です。大脳基底核はその破壊による運動機能の異常が生じることから運動の実行や計画にかかわり、また報酬をえるための行動などの、目的志向行動を形成するための重要な役割を担うと考えられています。これまで多くの研究者がその機能の解明を目指して研究しています。しかし、複雑に絡み合った核群の機能的役割はまだ謎のままです。

「お腹がすいた、ご飯をたべよう」やら「水がたらない、飲物が欲しい」脳のなかでこんな信号を出す中枢にしたがって我々は行動を起こし、なんとかこれまで生きぬいています。しかし、このモチベーションだけでは食べ物や飲物にはありつけません。条件を満たすための知識や手順を総動員して食物にありつかなければなりません。手に届く所に食物があるならば、自ら手を伸ばし始めることを決定し、手を伸ばすための制御をし、口へと運んで、口をあけ、噛み砕いて飲み込みます。ここまでして、始めて「ああお腹いっぱい」という報酬信号が脳に到達します。目の前の乾きかけのパンよりも、歩いて食堂に言った方がおいしいものが食べれると判断して歩き始めるという行動を選択し、食堂までの道のりをたどり、注文し、やっと食物にたどりつります。

こういった、随意的な運動の開始や手順の記憶などの制御の問題からより複雑で認知的な報酬を得るための行動計画にいたるまで、大脳基底核は報酬にいたる目的志向的な行動系列の生成と学習に関係すると考えられています。報酬を最大化する行動則(制御則) を生成、学習する理論的枠組である「強化学習」を大脳基底核の計算論として説明しています。

「強化学習」は、ある入力に対する出力の評価のみが報酬という形で与えられる学習パラダイムです。特に多くの場合に報酬は遅れて与えられることがありますので、その時刻の入力と報酬の連合だけでなく、報酬の時間的和を最大にするような出力列が要求されます。このような状況は、生物の場合には複数の行動列の後に食物を獲得するなどの目的を達成する行動系列生成のモデルとなります。

強化学習では入出力時系列に時間的関係を持たせた環境を仮定しています。多くの強化学習パラダイムでは、環境のモデルとしてマルコフ決定過程を仮定しています。

HOME|最適性理論とは|教材オンラインショップ|特定商取引法の記載|個人情報保護方針|お問い合わせ
Copyright(C) 2011 最適性理論で英語学習 All Rights Reserved