收藏丨20个医疗场景经典、热门数据集资源汇总

当今,人工智能技术在医疗领域的应用日益广泛,其中医疗数据集起到了至关重要的作用。本文将介绍 20 个经典的医疗开源数据集,涵盖了各个部位、CT\MRI\内窥镜等多种模态数据,以帮助研究者们更好地探索和研发医疗AI大模型。

同时,我们也鼓励大家积极参与医疗公开数据集的建设和共享,为AI在医疗领域的发展做出贡献。(点击了解创作者激励活动

一、全身

No.1 Medical Segmentation Decathlon

● 发布方:MONAI Development Team
● 发布时间:2019
● 简介
医学分割十项全能是医学图像分割数据集的集合。它总共包含 2,633 张三维图像,这些图像是从多个感兴趣的解剖结构、多种模式和多个来源收集的。具体来说,它包含以下身体器官或部位的数据:大脑、心脏、肝脏、海马体、前列腺、肺、胰腺、肝血管、脾脏和结肠。

● 下载地址
https://opendatalab.com/OpenDataLab/Medical_Segmentation_Decathlon

● 论文地址
https://arxiv.org/pdf/1902.09063v1.pdf

二、头颈部

No.2 Cephalometric X-ray Image

● 发布方:台湾大学
● 发布时间:2016
● 简介
Cephalometric X-Ray数据集是一个头颅X射线图像数据集,通过头颅图像分析,可以对患者的骨,牙齿和软组织结构进行研究,并为正畸分析和治疗计划制定提供全貌。

● 下载地址
https://opendatalab.com/OpenDataLab/Cephalometric_X-ray_Image

● 论文地址
https://www.nature.com/articles/srep33581.pdf

No.3 BraTS 2015

● 发布方:慕尼黑工业大学·伯尔尼大学·美国国立卫生研究院·哈佛大学麻省总医院
● 发布时间:2015
● 简介:
BraTS 2015 数据集是用于脑肿瘤图像分割的数据集。它由 220 个高级别胶质瘤 (HGG) 和 54 个低级别胶质瘤 (LGG) MRI 组成。四种 MRI 模式是 T1、T1c、T2 和 T2FLAIR。分段的“基本事实”提供了大约四个肿瘤内类别:水肿、增强肿瘤、非增强肿瘤和坏死。

● 下载地址:
https://opendatalab.com/BraTS_2015

● 论文地址:
https://hal.inria.fr/hal-00935640v1/document

三、心脏

No.4 ACDC Scribbles

● 发布方:爱丁堡大学·意大利卢卡IMT高等研究学校
● 发布时间:2021
● 简介
ACDC 数据集包含心脏 MRI 图像,与专家手工制作的分割掩模配对。可以使用 ACDC 数据集中提供的分割掩码来评估仅使用涂鸦监督训练的方法的性能。

● 下载地址
https://opendatalab.com/ACDC_Scribbles

● 论文地址
https://arxiv.org/pdf/2007.01152v3.pdf

四、胸部

No.5 Chest-Xray8 (COVID-19)

● 发布方:布里斯托尔大学·Medikal Park Hospital
● 发布时间:2020
● 简介
该数据集包含研究人员胸部的 1125 张 X 射线图像,其中 125 张标记为 COVID-19 的图像、500 张标记为肺炎的图像和 500 张标记为无发现的图像。

● 下载地址
https://opendatalab.com/OpenDataLab/Chest-Xray8

● 论文地址
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7187882/pdf/main.pdf

No.6 RIDER Lung CT

● 发布方:TCIA
● 发布时间:2015
● 简介
RIDER Lung CT Dataset 是一个肿瘤变异性数据集,用于评估非小细胞肺癌患者的 CT 图像。数据集包含 15,419 张图像。该数据集包含 32 名 NSCLC 患者的信息。每位患者使用相同的方案在 15 分钟内接受了两次胸部 CT 扫描。放射科医师独立测量图像中每个肿瘤的最大直径,并使用计算机软件辅助测量。一致性相关系数和bland-Altman图用于辅助评估。

● 下载地址
https://opendatalab.com/OpenDataLab/RIDER_Lung_CT

No.7 LoDoPaB-CT

● 发布方:不来梅大学
● 发布时间:2019
● 简介
Lodopa-ct是计算机断层扫描图像和模拟低剂量测量的数据集。它包含从LIDC/IDRI数据库中选择的约800名患者的40,000多个胸部扫描切片。

● 下载地址
https://opendatalab.com/OpenDataLab/LoDoPaB-CT

● 论文地址
https://arxiv.org/pdf/1910.01113v2.pdf

五、腹部

No.8 CHAOS

● 发布方:印第安纳大学·开罗大学·西北大学
● 发布时间:2021
● 简介
CHAOS是一个腹部 CT 造影图像和腹部 MR 造影图像数据集和挑战赛(肝脏、肾脏和脾脏)。

● 下载地址
https://opendatalab.com/OpenDataLab/CHAOS
● 论文地址
https://arxiv.org/pdf/2001.06535.pdf

六、骨头

No.9 VerSe

● 发布方:慕尼黑工业大学·苏黎世大学·格拉茨理工大学·伦敦帝国理工学院·奥克兰大学·科大讯飞华南研究院
● 发布时间:2022
● 简介
脊柱或椎体分割是所有关于脊柱形态和病理学自动量化的应用中的关键步骤。VerSe 是一个大规模、多探测器、多站点、CT 脊柱数据集,由 355 名患者的 374 次扫描组成。该挑战与 MICCAI 2019 和 2020 一起进行了两次迭代。评估的任务包括:椎体标记和分割。

● 下载地址
https://opendatalab.com/OpenDataLab/VerSe

● 论文地址
https://arxiv.org/pdf/2001.09193v6.pdf

七、内窥镜

No.10 Kvasir-SEG

● 发布方:挪威特罗姆瑟大学·Augere Medical·奥斯陆大学
● 发布时间:2019
● 简介
Kvasir-SEG 数据集(大小 46.2 MB)包含来自 Kvasir Dataset v2 的 1000 个息肉图像及其对应的地面实况。Kvasir-SEG 中包含的图像的分辨率从 332x487 到 1920x1072 像素不等。图像及其对应的掩码存储在两个具有相同文件名的单独文件夹中。图像文件采用JPEG压缩编码,便于在线浏览。

● 下载地址
https://opendatalab.com/OpenDataLab/Kvasir-SEG

● 论文地址
https://arxiv.org/pdf/1911.07069v1.pdf

No.11 Kvasir-Instrument

● 发布方:挪威奥斯陆大学 · 卡罗林斯卡大学医院 · 牛津大学
● 发布时间:2020
● 简介
Kvasir-Instrument 数据集(大小 170 MB)包含 590 个内窥镜工具图像及其地面实况掩码。数据集中图像的分辨率从 720x576 到 1280x1024 不等。图像文件使用 jpeg 压缩进行编码。

● 下载地址
https://opendatalab.org.cn/Kvasir-Instrument

● 论文地址
https://arxiv.org/pdf/2011.08065v1.pdf

八、皮肤科

No.12 ISIC 2017

● 发布方:埃默里大学·中阿肯色大学·Kitware, Inc.
● 发布时间:2018
● 简介
ISIC 2017是由国际皮肤成像合作组织 (ISIC) 发布的大规模皮肤镜图像数据集。ISIC 2017任务1数据集用于病变分割任务,并且包含用于使用地面真相分割训练的2,000图像 (2,000二进制掩模图像)。

● 下载地址
https://opendatalab.com/OpenDataLab/ISIC_2017_Task_1

● 论文地址
https://arxiv.org/pdf/1710.05006v3.pdf

九、眼底

No.13 DRIVE

● 发布方:爱荷华大学·乌得勒支大学医学中心
● 发布时间:2004
● 简介
DRIVE 数据集是用于视网膜血管分割的数据集。它由总共 40 张 JPEG 彩色眼底图像组成;其中病理异常7例。这些图像来自荷兰的糖尿病视网膜病变筛查项目。图像是使用佳能 CR5 非散瞳 3CCD 相机获得的,FOV 等于 45 度。每个图像分辨率为 584*565 像素,每个颜色通道(3 个通道)有 8 位。这组 40 幅图像平均分为 20 幅图像作为训练集和 20 幅图像作为测试集。在这两个集合中,对于每个图像,都有一个直径约为 540 像素的圆形视场 (FOV) 掩模。

● 下载地址
https://opendatalab.com/OpenDataLab/DRIVE

● 论文地址
https://www.siue.edu/~sumbaug/RetinalProjectPapers/Ride-Based%20Vessel%20Segmentation%20in%20Color%20Images%20of%20the%20Retina.pdf

No.14 RITE (Retinal Images vessel Tree Extraction)

● 发布方:爱荷华大学
● 发布时间:2013
● 简介
RITE(视网膜图像血管树提取)是一个数据库,可以对视网膜眼底图像上的动脉和静脉的分割或分类进行比较研究,该数据库是基于公共可用的 DRIVE 数据库(用于血管提取的数字视网膜图像)建立的。

● 下载地址
https://opendatalab.com/OpenDataLab/RITE

● 论文地址
https://link.springer.com/content/pdf/10.1007/978-3-642-40763-5_54.pdf

No.15 CHASE DB1

● 发布方:金斯顿大学
● 发布时间:2021
● 简介
CHASE_DB1 是一个视网膜血管分割数据集,包含 28 张彩色视网膜图像,大小为 999×960 像素,从 14 名学童的左右眼收集。每张图像都由两位独立的人类专家进行注释。

● 下载地址
https://opendatalab.com/OpenDataLab/CHASE_DB1

● 论文地址
https://web.archive.org/web/20170829162547id_/https://researchweb.iiit.ac.in/~gaurav.mittal/file/vessel_ensemble.pdf

十、细胞与病理

No.16 NuCLS

● 发布方:印第安纳大学·开罗大学·西北大学
● 发布时间:2021
● 简介
NuCLS数据集包含来自TCGA的乳腺癌图像的220,000多个标记核。通过病理学家,病理学居民和医学生的共同努力,使用数字幻灯片存档对这些核进行了注释。这些数据可以以多种方式用于开发和验证用于核检测,分类和分割的算法,也可以用作开发和评估间分析方法的资源。

● 下载地址
https://opendatalab.com/OpenDataLab/NuCLS

● 论文地址
https://arxiv.org/pdf/2102.09099v1.pdf

No.17 B-ALL Classification of Normal vs Malignant Cells

● 发布方:印度新德里公立大学·全印度医学科学研究所
● 发布时间:2020
● 简介
提供带有标签(正常与恶性)的细胞数据集,以训练基于机器学习的分类器,以识别白血病原始细胞(恶性细胞)中的正常细胞。在对这些图像进行染色归一化后,这些细胞(如上图 1 所示)已从图像中分割出来。图像的整体尺寸为 2560x1920,而单细胞图像的尺寸大约为 300x300 像素。

● 下载地址
https://opendatalab.com/OpenDataLab/B-ALL_Classification_of_Normal_etc

● 论文地址
https://arxiv.org/pdf/2006.00304v2.pdf

No.18 PanNuke

● 发布方:艾伦图灵研究所 · 华威大学 · 考文垂大学 · 谢菲尔德大学
● 发布时间:2019
● 简介
PanNuke 是一个半自动生成的细胞核实例分割和分类数据集,包含 19 种不同组织类型的详尽细胞核标签。该数据集由 481 个视野组成,其中 312 个视野是从多个数据源的 20K 多个不同放大倍率的整张幻灯片图像中随机采样的。该数据集总共包含 205,343 个标记的核,每个核都有一个实例分割掩码。

● 下载地址
https://opendatalab.com/PanNuke

● 论文地址
https://arxiv.org/pdf/2003.10778v7.pdf

No.19 CoNSeP

● 发布方:华威大学 · 英国伦敦癌症研究所 · 考文垂大学
● 发布时间:2018
● 简介
结直肠核分割和表型 (CoNSeP) 数据集由 41 个 H&E 染色图像瓦片组成,每个瓦片大小为 1,000×1,000 像素,放大倍率为 40 倍。这些图像是从 16 个结直肠腺癌 (CRA) WSI 中提取的,每个 WSI 都属于一个单独的患者,并使用英国考文垂和沃里克郡大学医院病理学系内的 Omnyx VL120 扫描仪进行扫描。

● 下载地址
https://opendatalab.com/CoNSeP

● 论文地址
https://arxiv.org/pdf/1812.06499v5.pdf

No.20 BBBC041 (P. vivax (malaria) infected human blood smears)

● 发布方:麻省理工学院
● 发布时间:2012
● 简介
间日疟原虫(疟疾)感染了带有边界框注释的人体血液涂片。数据包括两类未感染细胞(红细胞和白细胞)和四类感染细胞(配子体、环、滋养体和裂殖体)。

● 下载地址
https://opendatalab.com/BBBC041

● 论文地址
https://pml4dc.github.io/iclr2020/papers/PML4DC2020_45.pdf

以上就是本次分享,因为篇幅有限,更多医疗开源数据集,请访问OpenDataLab官网:https://opendatalab.org.cn/

猜你喜欢

转载自blog.csdn.net/OpenDataLab/article/details/134250767