MedTechToday編集部のいとうたかあきです。
今回の医療AI講座のテーマは、能動学習の基礎です。
ディープラーニングを使用する場合は、大量の教師データが必要となりますが、人の手による教師データのラベル付け(アノテーション)には大きな労力がかかるため、医療AI作成時に、大きな問題となってきます。
今回紹介する能動学習は、この負担を軽減させるために、とても役に立つ技術です。
今回も、「さらっと読んで、理解したい!AI知識を増やしたい!」という方向けに解説していきます。
1.学習用データ作成時の問題点
ディープラーニング(深層学習)には、膨大な学習用データが必要となるため、人の手によるラベル付けの負担がしばしば問題となってきます。
特に医療用のAI開発においては、日常業務で忙しい医師が、大量のラベル付けを行うことは困難であり、AIに学習させるためのデータに「正解情報」を付与できる人材が、不足していることが大きなボトルネックになっています。
2.能動学習とは
能動学習は、ラベルなしデータの内、最もモデルの精度向上に有効なデータから順番に、選択して学習に使用する技術です。
これにより、ラベル付けしてもあまりモデルの精度向上につながらないデータにかけるラベル付け数をなるべく減らし、モデル向上に重要なものを選択してラベル付けしていけるため、学習データの作成にかかる労力を削減できます。
モデルの精度向上に使用するサンプル選択の基準は、いくつかありますが、本記事では最も広く用いられているUncertainty Samplingについて紹介します。
Uncertainty Samplingでは、いったん少ない数のラベル付け済の教師データを用いてモデルを作成しておいて、その後に、分類結果についてモデルが最も自信のないサンプルから順に選択します。
モデルが苦手なサンプルからラベル付けをして答えを教えていけば、効率よくモデルを高精度化できるという考え方です。
例えば、標本画像を撮影し、ガンか非ガンかを識別するケースの場合、まず、少ない数のラベル付けの教師データを使っていったんAIモデルを構築し、そのAIモデルを用いた場合にガンの可能性が90パーセント越えといった、AIモデルが識別に自信のあるサンプルは後回しにして、なるべくガンか非ガンかの分類確率が50パーセントに近いものから順番に、人の手でラベル付けしてモデルに答えを教えていくということになります。
3. 医療AIへの応用例
医療への応用の例として、シンガポール科学技術研究庁のZiyuan Zhao氏らのArXiv論文https://arxiv.org/abs/2005.03225の概要を紹介します。
『大量にあるすべての画像データにラベル付けを行うのは、コストも時間もかかり非効率的です。
しかし深層学習においてはデータの量と質が大切であるため、効率的なラベル付け手法の構築が重要であると考えられています。
本論文では指骨画像のセグメンテーション(領域抽出)に対して深層学習に能動学習を組み合わせることでこの問題の解決を図っています。
結果として、画像データに対して43.16%のラベル付けで、すべてのラベル付けデータセットを用いた場合と同様の精度を得ることができました。
このことは能動学習により、必要なラベル付けの数を、半分以下にすることが可能となったことを示しています。』
詳しくは下記の記事で紹介していますので、興味のある方はご覧頂ければ幸いです。
4.まとめ
能動学習についてなんとなくイメージがつかめましたでしょうか。
本記事では、さらっと理解できることに重点を置きました。
少しでも本記事を通して、能動学習について理解が深まったと感じて頂ければ幸いです。