新人セラピスト(理学療法士・作業療法士・言語聴覚士)とリハビリ学生を応援するためのブログ

運動学習のメカニズムを分かりやすく解説~強化学習~

スポンサーリンク
きんたろー
こんにちわ!きんたろーブログ(@kintaroblog)です!

 

 

さて、今回も『運動学習シリーズ』です。

前回は『教師あり学習』について解説しましたので、今回は3つの運動学習の種類のうち『強化学習』について解説していこうと思います。

 

合わせて読みたい

運動学習のメカニズムを分かりやすく解説~教師あり学習~

 

運動学習のメカニズム~強化学習~

強化学習とは

強化学習とは、行動を起こした際に得られた『報酬』を元にその行動が強化され、学習していく学習理論のことです。

 

強化学習は、『教師あり学習』のように運動予測と結果の誤差というのはあまり問題にならず、大事なのは運動が遂行できたことによる本人の中での“報酬”です。

 

つまり‟達成感”などがこれに当たります。

 

ポイント

この強化学習における報酬というのは、実は報酬そのものの大きさではなく、報酬価値予測誤差(Prediction error:PRE)に反応するという点です。

 

PREとは、予測された報酬に対する実際の報酬の差の事を表し、報酬の源である『ドーパミン神経細胞』の興奮性はこの差によって変化するのです。

報酬に対応した学習には、ドーパミン神経細胞の活性化に基くドーパミン作動系が活動することが必要である。
このドーパミン神経細胞は『行動を起こすときに得られる期待される報酬の量』と『行動をとった結果、実際に得られる報酬の量』の誤差(予測誤差)に応じて興奮し、その興奮度合いに比例して、行動を起こすのに関与した神経結合のシナプス伝達効率を向上させる(Schultz.2007)

『リハビリテーションのための脳神経科学入門 森岡周』より引用

 

つまり、報酬源であるドーパミンは、予測していなかった時に得られた報酬や、自分が予測していたもの以上の報酬が得られた時に興奮し、その時の運動を強化学習していくことになるのです。

 

実際に小~中規模の報酬を期待し、中規模の報酬を得た時にはドーパミンが分泌されたが、中~大規模な報酬を期待し、中規模の報酬を得た時にはドーパミンは分泌されなかった。

 

このような実験結果も出ているように同じ報酬(中規模の報酬)を得たとしても、それ以前の予測(期待値)によってドーパミン分泌量は大きく変化するのです。

『positive PLE』と『negative PLE』

ちなみに…

スポンサーリンク

〇実際の報酬が予測を上回る場合を『positive PLE』

●実際の報酬が予測を下回る場合を『negative PLE』

といいます。

 

positive PLEが大きいほど強化学習が図れますが、逆にnegative PLEが大きくなれば学習効果が得られないことに加え、その運動に対する意欲の低下も引き起こします。(学習性無力感)

 

よって、セラピストは対象者のpositive PLEをいかに生み出せるようにするかが大切であり、そのために課題の難易度の設定などを行わなければなりません。

 

また、予測を多く見積もりすぎることもnegative PLEを生み出す原因になります。

 

予測を多く見積もるというのはつまり、‟目標設定が高すぎる”場合です。

 

目標設定が高すぎると、例えばよくあるのは一度の介入時に何かしら改善した変化が見られたとしても、対象者本人が予測していたものはもっと高いものであるため、小さな改善は予測を上回らないためにpositive PLEにならない場合です。

 

そのため、この状態に対する対策としては、より詳細に対象者とセラピストがきちんと短期目標を設定しておくことが重要です。

 

最終的な目標が、常に自分の期待(予測)として存在すると、少しの変化に対しての気づきが生まれず、結果達成感が得られませんから強化学習も図れません。

 

よって、分かりやすい短期目標をきちんと設定し、対象者の期待(予測)自体を細かく刻む必要があります。

 

ただ、この時難しいのが予測を低く設定し過ぎると予測通りの結果しか生まれず、結果これでは報酬になりません。

 

となると、セラピストの課題設定というのは非常に大切な側面になってきます。

ゴールの指標は対象者の目線に合わせること

さて、一つ注意点として、リハビリテーション介入を行う中でよくあることですが、改善した部分がセラピスト目線や医療従事者だけが分かる変数で設定している場合がありますが、これはあまりよくありません。

 

あくまで例えばですが、‟歩行中の骨盤の下制”とか‟肩関節の屈曲角度”とか‟FIMの点数”とかがこれにあたります。

 

もちろん、これらの改善を対象者自身が報酬予測として念頭に置いているならOKですが、ほとんどの方はセラピストの視点でみる改善すべき点などは専門的な知識があるわけではないので、そもそも予測に含まれていない場合が多いです。

 

(よく関節可動域が介入前後で改善していたら、セラピストはめっちゃ喜んでるけど、対象者はポカーンとしている画ってよくないですか?)

 

つまり、改善そのものを対象者が理解できたり体感できる内容にしなければ、セラピストだけが報酬を感じている(自己満足)なんてことになりかねません。

 

そのため考えなければならないことは、『対象者にとっての報酬は何か』『何を期待(報酬予測)しているのか』『報酬を理解または体感しやすい課題となっているか』これらをセラピストは意識しながらリハビリテーション介入を行っていく必要があります。

 

以上が、強化学習のメカニズムとリハビリテーション応用についてです。

 

最後までご覧いただきありがとうございました。

スポンサーリンク