今回はAIが使える、もしくは今後AIを使ってみたいという医療関係者のために、自由に使える医療用データセットをまとめました。
Contents
- 1.OASIS (Open Access Series of Imaging Studies)
- 2.Open NEURO
- 3.NDA (The National Institute of Mental Health Data Archive)
- 4.ISLES Ischemic Stroke Lesion Segmentation
- 5.iSeq-2017
- 6.CT Medical Images
- 7.CheXpert
- 8.DeepLesion
- 9.Annotated lymph node CT data
- 10.Annotated pancreas CT data
- 11.CHAOS
- 12.MURA
- 13.VDM3Seg
- 14.fastMRI
- 15.MRNet Dataset
- 16.ANHIR
- 17.Optos images dataset
- 18.IDRID
- 19.CATARACTS
- まとめ
1.OASIS (Open Access Series of Imaging Studies)
http://www.oasis-brains.org/#about
OASISは脳の神経画像のデータセットを科学の発展のために無料で提供しています。
OASIS-3は30年にわたって集められた老化とアルツハイマーの方のLongitudinalNeuroimaging、臨床、認知のデータセットです。
609人の認知的に正常な成人と、489人の異なる段階の認知障害を起こしている42~95歳の方が対象者です。
対象者数1098
MRセッション数2168
PETセッション数1608
2.Open NEURO
脳画像および脳波の網羅的プラットフォームです。
MRI,MEG,EEG,iEEG,ECoGのデータを共有している、無料でオープンなプラットフォームです。
データセット数431
対象者数13947
3.NDA (The National Institute of Mental Health Data Archive)
https://nda.nih.gov/edit_collection.html?id=3104
NDAは、当初は自閉症のサポートのために確立されましたが、現在はメンタルヘルスや他の研究のためのデータシェアのプラットフォームです。
複数のデータベースの集合でできています。
対象者数8670
4.ISLES Ischemic Stroke Lesion Segmentation
http://www.isles-challenge.org/ISLES2017/
脳梗塞の画像データです。
トレーニングデータの対象者数43人、32症例のテストデータ
5.iSeq-2017
生後6ヶ月未満の乳児の頭部MRIのデータセットです。
脳の成長が著しい生後1年目のこの期間は自閉症や統合失調症のような多くの精神異常に重要だとして、ますます注目を集めてきています。
6.CT Medical Images
https://www.kaggle.com/kmader/siim-medical-images
がん患者のCT画像のデータセットです。
対象者69人
7.CheXpert
https://stanfordmlgroup.github.io/competitions/chexpert/
65,240人 (224,316枚) の患者の胸部レントゲン集です。
胸部レントゲン検査は世界で最も一般的な画像検査であり、多くの生命を脅かす病気のスクリーニング、診断、および管理に不可欠といわれています。
8.DeepLesion
https://www.nih.gov/news-events/news-releases/nih-clinical-center-releases-dataset-32000-ct-images
CT画像の大規模データセットです。
ほとんどの公的に利用可能な医用画像データセットには1000未満の病変部位のデータしかありませんが、DeepLesionには、CT画像で識別された32,000を超える病変部位のデータがあります。
4400人の対象者
今後も、より多くのデータを収集することでDeepLesionデータセットを改善し続け、検出精度を向上させていく予定。
9.Annotated lymph node CT data
https://wiki.cancerimagingarchive.net/display/Public/CT+Lymph+Nodes
リンパ節の位置がついた胸腹部CT画像です。
90人の患者のCT画像で合計388個の胸部リンパ節、86人の患者で合計595個の腹部リンパ節にラベル付けがされています
10.Annotated pancreas CT data
https://wiki.cancerimagingarchive.net/display/Public/Pancreas-CT
膵臓の位置がついた腹部造影CT画像です。
53人の男性と27人の女性の被験者から82の3D CTスキャンを実施し、被験者の17人は、腎摘出の前にスキャンされた健康な腎臓ドナーです。
残りの65人は、主要な腹部病変も膵臓癌病変も持たない患者から放射線科医によって選択されました。
11.CHAOS
https://chaos.grand-challenge.org/Data/
CHAOSは、CTおよびMRIデータからの腹部臓器(肝臓、腎臓、脾臓)のセグメンテーションを目的としています。
12.MURA
https://stanfordmlgroup.github.io/competitions/mura/
筋骨格系の症 状は、世界中で17億人以上に影 響を及ぼ しており、重度の長期的な痛みと障害の最も一般的な原因であり、毎年3,000万人の救急科が訪れています。
MURAは骨のレントゲン画像のデータセットです。
肘、指など7つの部分、正常/異常のアノテーションつき。
12,173人の患者からの14,863件の研究からなる、合計40,561枚の大規模データセットになります。
13.VDM3Seg
https://ivdm3seg.weebly.com/data.html
2つの異なる段階の12人の被験者から収集された脊椎下部のMRIデータセットです。
14.fastMRI
膝のMRIデータセットは、1,500のサンプルされた膝のMRIから 得られたデータと10,000の臨床における膝のMRIからのDICOM画像データ、脳のMRIデータセットは、6970のサンプルされた脳のMRIから得られたデータが提供されています。
15.MRNet Dataset
https://stanfordmlgroup.github.io/competitions/mrnet/
膝のMRI画像です。
データセット数は1,370で、データセットには、1,104(80.6%)の異常な検査が含まれ、319(23.3%)で前十字靭帯、508(37.1%)で半月板断裂がみられます。
16.ANHIR
https://anhir.grand-challenge.org/Data/
さまざまな正常組織のHE染色標本データです。(病変組織、肺葉、乳腺など)
17.Optos images dataset
https://tsukazaki-ai.github.io/optos_dataset/
5389名の患者から得られた眼底画像13,047枚すべての画像は日本の姫路市の塚崎病院で取得されました。
眼科における人工知能の研究が進む だけでなく、眼科や人 工知能の人材を教育 するのに役立つことを期待してデータセットを公開している。
18.IDRID
https://idrid.grand-challenge.org/Data/
糖尿病性網膜症の患者の眼底写真です。
516枚の画像を抽出して作成されたデータセットです。
専門家により保証された品質です。
19.CATARACTS
https://cataracts.grand-challenge.org/Data/
白内障手術のアノテーションつき動画セットです。
白内 障手術 の50本のビデオで 構成されています。
手術 は、有 名な専門家 (48手術) 、1年の経験を積んだ 外科医(1手術) 、インターン(1手術) の3人の 外科医によって行われました。
ビデオの長さは平均10分56秒(最 小:6分23秒、最大 :40分34秒、標準偏差:6分5秒)。合計で、9時間以上の手術がビデオ録画されました。
まとめ
以上、自由に使える医療データセットを紹介しました。
皆様のお役に立てれば幸いです。