深度学习神经网络学习笔记-多模态方向-06-VQA-Med: Overview of the Medical Visual Question Answering Task at ImageCLEF 2

摘要

本文介绍了ImageCLEF 2019上的医学视觉问答任务(VQA-Med)的概述。参与系统的任务是根据放射学图像的视觉内容回答医学问题。在VQA-Med的第二版中,我们重点讨论了四类临床问题:模态、平面、器官系统和异常。利用分类和文本生成方法,这些类别的设计具有不同程度的难度。我们还确保所有问题都可以从图像内容中回答,而不需要额外的医学知识或特定领域的推理。我们创建了一个包含4200个放射学的新数据集遵循这些指导方针的图像和15292个问题-答案对。该挑战受到了17个参与团队的好评,他们应用了广泛的方法,如迁移学习、多任务学习和集成方法。其中最好的团队取得了64.4%的BLEU分数和62.4%的准确率。在未来的版本中,我们将考虑设计
更多面向目标的数据集,并解决上下文信息和特定领域推理等新方面的问题。

关键词:视觉问答,数据创建,深度学习,放射学图像,医学问答

介绍

人工智能的最新进展为临床决策支持打开了新的机遇。特别是医学图像自动判读的相关解决方案,由于其在图像检索和辅助诊断方面的潜在应用,正吸引着越来越多的兴趣。此外,能够理解临床图像并回答与其内容相关的问题的系统可以支持临床教育、临床决策和患者教育。从一个计算视角,这个视觉问答(VQA)任务提出了一个令人兴奋的问题,它结合了自然语言处理和计算机视觉技术。近年来,新的开放域数据集[3,8]和方法[23,7]在VQA方面取得了实质性进展。
然而,在医学等专业领域处理VQA时,存在需要解决的挑战。Ben Abacha et al.[4]分析了医学视觉问答面临的一些问题,并描述了四个关键挑战(i)设计面向目标的VQA系统和数据集,(ii)对临床问题进行分类,(iii)选择(临床)相关图像,以及(iv)捕获上下文和医学知识。
受一般领域视觉问答成功的启发,我们在ImageCLEF 2018中进行了一项试点任务(VQA-Med 2018),专注于医学领域[9]的视觉问答。基于第一版的成功,我们在今年继续这项任务,加强了对精心策划和更大数据集的关注。
在VQA-Med 2019中,我们选择了(i)关于一个元素的放射学图像和医学问题,(ii)可以从图像内容中回答。我们针对四类不同难度级别的主要问题:模态、平面、器官系统和异常。例如,前三类可以作为分类任务来处理,而第四类(异常)则提出了一个答案生成问题。我们故意以这种方式设计数据,以研究不同方法在这两方面的行为和表现。这种设计比开放域VQA数据集[3,8]中的常见方法更与临床决策支持相关,在这些数据集中,答案由一个单词或数字组成(例如,是,否,3,停止)。
在下一节中,我们将介绍任务描述的更多细节和示例。我们在第3节中描述了数据创建过程和VQA-Med-2019数据集。我们在第4节和第5节中分别提出了评估方法并讨论了挑战结果。

任务描述

与去年一样,给定一个医学图像和一个与临床相关的问题,VQA-Med 2019的参与系统的任务是根据视觉图像内容回答问题。在VQA-Med 2019中,我们特别关注了放射学图像和四类主要问题:模态、平面、器官系统和异常。我们主要考虑仅询问一个因素的医疗问题:例如,“这张MRI中主要显示的器官是什么?、“这张乳房x线照片拍摄于哪个平面?”、“这是t1加权、t2加权还是flair图像?”,“这个超声最让人担忧的是什么?”)。
,所有选定的问题都可以从图像内容中回答,而不需要额外的特定领域推理或上下文。包括这些方面的其他问题将在未来的挑战版本中考虑,例如:“这种方式对孕妇安全吗?、“什么位于最下面。到右膈肌?,“在这个平面上可以典型地看到什么?”、“你会如何测量肾脏的长度?”

VQA-Med-2019数据集

我们通过(i)应用几个过滤器来选择相关图像和相关注释,以及(ii)创建模式来生成问题及其答案,自动构建了训练集、验证集和测试集。测试集由两位医学博士手动验证。该数据集公开可用4。图1展示了VQA-Med-2019数据集的示例。

医学图像

我们根据它们的标题、模态、平面、位置、类别和诊断方法,用过滤器从MedPix5 database中选择相关的医学图像。我们只选择了基于图像进行诊断的病例。所选诊断方法的例子:CT/MRI成像、血管造影、特征性成像外观、x线摄影、影像特征、超声、放射诊断。

问题类别和模式

我们瞄准了最常见的问题类别:模态、平面、器官系统和异常(Ref:VQA-RAD)。
1)模态:是/否、WH和封闭式问题。例子:
给病人做胃肠造影了吗?
-这张图像的Mr权重是多少?
-这张图片是用什么模态拍的?
-这是t1加权,t2加权,还是flair图像?
2)平面:WH问题。

例子:
-这个mri的平面是什么?
-这张乳房x光片是在哪架飞机上拍的?
3)器官系统:WH问题。例子:

  • x光片显示的是什么器官系统?
    -这张mri主要显示的器官是什么?
    4)异常:是/否和WH问题。例子:
    -这张图片看起来正常吗?

在这里插入图片描述
在这里插入图片描述
-这张胃肠图像是否有异常?
-图像中的原发性异常是什么?
-这个超声最令人担忧的是什么?

平面(16):轴向;矢状;冠状的;美联社;侧;额;PA;横向;斜;纵向;卧位;三维重建;Mammo-MLO;Mammo - CC;Mammo-Mag CC;Mammo-XCC。
器官系统(10):乳腺;颅骨及内容物;面部、鼻窦和颈部;脊椎和内容物;肌肉骨骼;心脏和大血管;肺、纵隔、胸膜;肠胃;泌尿生殖器的;血管和淋巴。
模式(36):

  • [XR]: XR- plain Film
  • [CT]: CT-非对比;CT w/contrast (IV);CT-GI & IV对比;CTA-CT血管造影术;CT-GI对比;CT-Myelogram;断层摄影术
  • [MR]: MR- t1w w/钆;MR-T1W-noncontrast;MR-T2加权;MR-FLAIR;MR-T1W w/Gd(脂肪抑制);MR T2梯度,GRE,MPGR, SWAN,SWI;MR-DWI扩散加权;MRA-MR动脉造影/造影术;MR-Other脉冲Seq.;MR-ADC Map (App Diff Coeff);MR-PDW质子密度;MR-STIR;MR-FIESTA;MR-FLAIR w / Gd;MR-T1W SPGR;MR- T2 FLAIR w/Contrast;MR T2梯度GRE
    -【美】:US- ultrasound;US-D-Doppler超声波
  • [PT]: nm -核医学;PET-Positron发射
    模式:对于每个类别,我们从医学学生自然提出的数百个问题中选择问题模式,并从VQA-RAD数据集[13]中进行验证。

训练和验证集

训练集包括3200张图像和12,792对问题-答案(QA),每张图像有3到4个问题。表1给出了每个类别中出现频率最高的答案。验证集包括500张医学图像和2000对QA。

测试集

一名医生和一名放射科医生对测试答案进行了手动双重验证。通过(i)指示可选部分(8个答案),(ii)添加其他可能的答案(10个),或(iii)纠正自动答案,共更新了33个答案。15个答案被更正,相当于测试答案的3%。正确的答案对应以下类别:异常(8/125)、器官(6/125)、平面(1/125)。对于异常类问题,纠正主要是改变推断出的诊断,由问题
在这里插入图片描述
如图所示。我们期望在使用相同的自动数据创建方法生成的训练集和验证集中有类似的错误率。测试集由500张医学图像和500个问题组成。

评价方法

对参与VQA-Med 2019任务的系统进行的评估基于两个主要指标:准确性和BLEU。我们使用了来自通用领域VQAt6 ask的准确度指标的改编版本,该指标严格考虑参与者提供的答案和真实答案的精确匹配。我们计算总体的准确性分数以及每个问题类别的分数。为了补偿准确性指标的严格性,BLEU[15]用于捕获系统生成的答案和地面真实答案之间基于单词重叠的相似性。BLEU指标的整体方法论和资源本质上与去年的任务[9]相似。

结果与讨论

在104个在线注册中,61个参与者提交了已签署的最终用户协议表格。最后,17个小组总共提交了90次运行,表明对VQA-Med 2019任务的显著兴趣。图2展示了17个参赛团队的结果。综合成绩最好的是翰林团队,达到0.624的准确率和0.644的BLEU分数。表2给出了所有参与者和提交次数的概述7。参与系统的总体结果在表3到表4中以分数降序(越高越好)展示了两个指标。每次运行的详细结果在ImageCLEF 2019实验室概述论文[11]中进行了描述。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

与去年类似,参与者主要使用深度学习技术来构建他们的VQA-Med系统。特别是,表现最好的系统利用了深度卷积神经网络(cnn),如VGGNet[18]或ResNet[10]与各种池化策略,例如全局平均池化来编码图像特征,以及BERT[6]或循环神经网络(RNN)等基于transformer的架构来提取问题特征。然后,各种类型的注意力机制与不同的池化策略耦合使用,如多模态分解双线性(MFB)池化或多模态分解高阶池化(MFH),以便结合多模态特征,然后进行双线性变换,最终预测可能的答案。
对表3中问题类别8 级准确度的分析表明,通常情况下,参与系统在回答模态问题时表现良好,其次是平面和器官问题,因为这些问题类别中的每个答案的可能类型都是有限的。然而,对于异常类型的问题,由于开放式问题的潜在复杂性,系统在准确性方面表现不佳。
在这里插入图片描述
问题和可能是由于准确性指标的严格。为了弥补准确性的严格,我们计算了BLEU分数,以了解系统生成的答案和基本真实答案的相似性。今年系统的BLEU分数较高(0.631 best BLEU vs. 2018年的0.162)进一步验证了所提出的基于深度学习的模型对于VQA任务的有效性。总的来说,今年获得的结果清楚地表明,与去年的任务相比,所提供的数据集具有鲁棒性。

结论

我们展示了VQA-Med 2019任务、新数据集、参与系统和官方结果。为了确保问题的自然措辞,我们使用了医学院学生提出的问题的模式来构建属于我们的四个目标类别的临床相关问题。我们为该挑战创建了一个新的数据集,遵循9 以目标为导向的指导方针,并涵盖了具有不同难度的问题。广泛的方法已经被应用,如迁移学习,多任务学习,集成方法,以及结合分类模型和答案生成方法的混合方法。最好的团队取得了0.644的BLEU分数和0.624的整体准确率。在未来的版本中,我们正在考虑更复杂的问题,这些问题可能包括上下文信息或需要特定领域的推理才能获得正确答案。

猜你喜欢

转载自blog.csdn.net/CSDNXXCQ/article/details/130770003
今日推荐