運動学習のメカニズムを分かりやすく解説~強化学習~

この記事は『運動学習シリーズ』です。

前回『教師あり学習』について解説しましたので、今回は3つの運動学習の種類のうち『強化学習』について解説していきたいと思います。

この記事でわかること
  • 強化学習とは何か?
  • 臨床で強化学習ってどんな時に応用できるのか?
  • 強化学習を図るために気をつけるべきことは何か?

この記事では、上記の疑問に対してお答えしていていけたらと思っています。

キーワードや『報酬』です。

この記事を読めば、『強化学習』の概念や臨床での活用方法が理解できるので、ぜひ最後までご覧ください。

目次

運動学習のメカニズムを分かりやすく解説~強化学習~

強化学習とは

強化学習とは、行動を起こした際に得られた『報酬』を元にその行動が強化され、学習していく学習理論のことです。

強化学習は、『教師あり学習』のように運動予測と結果の誤差というのはあまり問題にならず、大事なのは運動が遂行できたことによる本人の中での“報酬”です。

つまり‟達成感”などがこれに当たります。

強化学習における最も重要な点。

それは、強化学習における報酬というのは、実は“報酬そのもの”の大きさではなく、報酬価値予測誤差(Prediction error:PRE)に反応するという点です。

PREとは、予測された報酬に対する実際の報酬の差の事を表し、報酬の源である『ドーパミン神経細胞』の興奮性はこの差によって変化するのです。

報酬に対応した学習には、ドーパミン神経細胞の活性化に基くドーパミン作動系が活動することが必要である。
このドーパミン神経細胞は『行動を起こすときに得られる期待される報酬の量』『行動をとった結果、実際に得られる報酬の量』の誤差(予測誤差)に応じて興奮し、その興奮度合いに比例して行動を起こすのに関与した神経結合のシナプス伝達効率を向上させる(Schultz.2007)

『リハビリテーションのための脳神経科学入門 森岡周』より引用

つまり、報酬源であるドーパミンは予測していなかった時に得られた報酬や、自分が予測していたもの以上の報酬が得られた時に興奮しその時の運動を強化学習していくことになるのです。

実際に小~中規模の報酬を期待し、中規模の報酬を得た時にはドーパミンが分泌されたが、中~大規模な報酬を期待し中規模の報酬を得た時にはドーパミンは分泌されなかった。

というような実験結果も出ているように、同じ報酬(中規模の報酬)を得たとしても、それ以前の予測(期待値)によってドーパミン分泌量は大きく変化するのです。

#要は期待値を越えるか否か

強化学習は臨床のどの場面で出てくるか

強化学習は臨床場面において、主に患者様とのコミュニケーション適切な課題設定を行う際に必ず考えるべきところになります。

ここを理解するために、以下にまずは抑えておきたい概念について触れておきます。

『positive PRE』と『negative PRE』

これは、予測と報酬という概念を説明する際に出てくる考え方です。

実際の報酬が予測を上回る場合を『positive PRE』

実際の報酬が予測を下回る場合を『negative PRE』

というふうになり、positive PREが大きいほど強化学習が図れますが、逆にnegative PREが大きくなれば学習効果が得られないことに加え、その運動に対する意欲の低下も引き起こすと考えられています

これを学習性無力感と言います。

よって、セラピストは対象者のpositive PREをいかに生み出せるようにするかが大切であり、そのために課題の難易度の設定などを行わなければなりません。

また、予測を多く見積もりすぎることもnegative PREを生み出す原因になります。

予測を多く見積もるというのはどういうことかというと、要は‟目標設定が高すぎる(リハに対する期待値が高い状態)”場合です。

目標設定が高すぎると、例えばよくあるのは一度の介入時に何かしら改善した変化が見られたとしても、対象者本人が予測(期待)していたものはもっと高いものであるため、小さな改善は予測を上回らないためにpositive PREにならないわけです。

そのため、この状態に対する対策としてはより詳細に対象者とセラピストがきちんと短期目標を設定しておくことが重要です。

最終的な目標が、常に自分の期待(予測)として存在すると、少しの変化に対しての気づきが生まれず、結果達成感が得られませんから強化学習も図れません。よって、分かりやすい短期目標をきちんと設定し、対象者の期待(予測)自体を細かく刻む必要があります。

ただ、この時難しいのが予測を低く設定し過ぎると予測通りの結果しか生まれず、結果これでは報酬になりません。

つまり、設定した課題が簡単すぎてもダメということです。

となると、なおさらセラピストの課題設定能力というのは、リハビリテーションを進めていく上で非常に大切なスキルになってきます。

強化学習は対象者との二人三脚で成り立つ

さて、一つ注意点として、リハビリテーション介入を行う中でよくあることですが、改善した部分がセラピスト目線や医療従事者だけが分かる変数で設定している場合がありますが、これはあまりよくありません。

あくまで例えばですが、‟歩行中の骨盤の下制”とか‟肩関節の屈曲角度”とか‟FIMの点数”とかがこれにあたります。

もちろん、これらの改善を対象者自身が報酬予測として念頭に置いているならOKですが、ほとんどの方はセラピストの視点でみる改善すべき点などは専門的な知識があるわけではないので、そもそも予測に含まれていない場合が多いです。

よく関節可動域が介入前後で改善していたら、「セラピストはめっちゃ喜んでるけど対象者はポカーンとしている」みたいな画ってないですか?

つまり、改善そのものを対象者が理解できたり体感できる内容にしなければ、セラピストだけが報酬を感じている(自己満足)なんてことになりかねません。

そのため考えなければならないことは、『対象者にとっての報酬は何か』『何を期待(報酬予測)しているのか』『報酬を理解または体感しやすい課題となっているか』これらをセラピストは意識しながらリハビリテーション介入を行っていく必要があります。

さて、以上が『強化学習のメカニズム』とリハビリテーション応用についてでした。

今回の内容が、皆様の明日の臨床の一助になれば嬉しいです。

最後までご覧いただきありがとうございました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次