医療AI講座

【医療事例でAI解説】強化学習の理解を深める!!

MedTechToday編集部のいとうたかあきです。

今回は、「『強化学習』って名前はよく聞くけど、わからない」「さらっと読んで、AIの知識を補填したい」という医療従事者の方向けに強化学習の基礎と医療での応用例について説明させていただきます。

1. 機械学習における「学習」とは

機械学習は、「機械」を「学習」させる手法で、「機械」はモデルともいわれます。

モデルとは、実際にはパラメーターをもった数式のことでこのパラメーターを、与えられたデータに合うように調整することを「学習」と呼んでいます。

この「学習」の方法は、「教師あり学習」「教師なし学習」「強化学習」の3つの方法に大別されています。

簡単にそれぞれ解説すると、

「教師あり学習」は、データと正解ラベルをセットで与えることでデータが来たら正解が出力されるように「学習」させる手法で、

「教師なし学習」は、正解ラベルを与えることをせずに、データのみから、各データ同士の関係性を表現できるようにモデルを「学習」させる手法、

「強化学習」は、目的として設定された「報酬」を最大化する「行動」が出力されるように、モデルを「学習」させる手法です。

2. 強化学習とは

ざっくりとした説明なのでまだピンとこないという方も多いと思います。

今回は強化学習の「報酬」や「行動」の意味について、将棋を例にして解説していきます。

将棋を行う際には、将棋盤と駒の配置という [環境]があり、人[エージェント]が駒を動かします。これが[行動]です。

さらに、環境に対応して行った行動の後、どうなるかを[状態]といい、駒を動かした事によって得られる相手の駒を、この場合[報酬]とします。

このように[環境](将棋盤)に対して[エージェント](人)が[行動](駒を動か)し、[状態](盤面)が変化して[報酬](駒)がもらえるというのが一連の流れです。

「相手の駒[報酬]を最も獲得できるようにするにはどう駒を動かすこと[行動]がベストなのか」を決めるのが強化学習です。

ここまでの説明で[行動]に対する[報酬](正解)があるのであれば教師あり学習と同じじゃないかと思われた方もいるかもしれません。

教師あり学習と異なるのは、単体ではなく全体の[報酬](正解)で最適化を行うという点です。

例えば、1日に10円もらえるけど、3日我慢すれば1000円もらえるという場合、選択できる[行動]は、「我慢する」か「毎日もらう」の2つです。

教師あり学習では単体の[行動]の結果を評価するため、我慢しない(10円もらう)が、最適な[行動]になります。

それに対して、強化学習では全体としての結果を評価するため、「3日我慢する」が最適な[行動]となるわけです。

つまり、一つの目的に対してであれば、他の手法よりも総合的な判断を下せるのが強化学習というわけです。

3.医療への応用例

医療の分野において、敗血症の治療戦略決定に「強化学習」が応用されている事例を紹介します。

AIに過去の敗血症の治療データを学習させることで、敗血症の擬似的な治療判断を行うという実験がありました。

具体的には、患者の状態に関する48種類の時系列データ、処方薬の量やタイミング、治療予後のデータを用いて時系列的な治療の意思決定をするために強化学習が用いられました。

強化学習の訓練用データと無関係なデータを用いて検証した結果でも、平均して人間の臨床医より高い治療成績となりうることが示されています。

参考URL https://www.nature.com/articles/s41591-018-0213-5

このように、「過去の診療行動と予後データから、現在における最適な判断を出力する」ことで、実際の治療を通したトライアンドエラーをする必要がなくなるということが、医療での応用として今後様々な症例で現れてくると思われます。

まとめ

今回は、強化学習の基礎と医療での応用事例について説明しました。

医療の発展に従事されているみなさまのお役に少しでも立てれば幸いです。

わかりづらい点などありましたら、ぜひこちらにコメントください。↓

Delicious にシェア
Pocket
LinkedIn にシェア
LINEで送る

返信する

メールアドレスが公開されることはありません。

CAPTCHA