浅谈医疗AI软件测试技术发展

一、前言

随着人工智能的快速发展，AI在医疗领域也发挥出巨大的作用。国内很多医疗公司或组织机构，纷纷投入到医学AI软件的研发中，例如：

2020年，乐普医疗公司研发出心电分析软件(AI— ECGPlatform)，特点是基于人工智能深度学习技术，自动分析心率失常、心肌梗塞、心室肥大和ST—T异常等心电图事件，总体准确率已达95%以上。

冠脉CT造影图像血管狭窄辅助分诊软件，数坤科技公司旗下的一款AI医疗产品，特点是全自动智能完成心脏图像重建、官腔狭窄检测机斑块显示、斑块性质判断、报告生成等工作并生成结构化报告，于2020年11月10日过审。

2022年，东软医疗的NeuBrainCARE(脑缺血图像辅助评估软件)获得了国内首张卒中领域NMPA三类证。可在90秒提供包含CBV、CBF、MTT、TTP、Tmax 5种参数的灌注图谱，在检出核心梗死区和缺血半暗带方面，准确率高达95%。

可见医疗AI软件可以很好地辅助医务人员，快速诊断治疗疾病。但医疗AI软件不同于传统软件，功能复杂，临床风险高。在测试过程中，缺乏标准，更依赖于临床实验，带来了很多困难和挑战。

二、医疗AI软件技术发展

医疗AI软件是一种利用人工智能技术来辅助医疗工作的软件。它可以通过数据分析、图像识别、自然语言处理等技术，提高医疗诊断和治疗的准确性和效率，帮助医疗工作者更好地处理复杂的医学数据和信息。

医疗AI软件可以应用在很多方面，比如：

医学影像分析：利用深度学习算法来分析医学影像，例如X射线、MRI和CT扫描等，诊断疾病、评估治疗效果等。
个性化治疗：基于患者的个体化数据，比如基因组信息、病历数据和生命体征等，为患者提供更准确、个性化的治疗方案。
医疗咨询：利用自然语言处理技术，将医学文献、患者历史记录等大量医学数据进行分析，帮助医疗工作者更好地了解患者情况，提供更专业的医疗咨询服务。

医疗AI软件的应用有很多好处，可以提高医疗效率和准确性，降低医疗成本，同时也能够让医生更加关注人性化的医疗服务。医学AI软件和传统医学软件的差异比较，如下：

近年来，我国医学AI软件技术发展迅速，主要表现为以下几个方面：

医学影像识别技术：通过深度学习等技术，实现对医学影像的智能识别、分类和分割，可以用于肿瘤早期诊断、病灶定位和手术辅助等方面。例如：数坤科技的头颈CT血管造影图像辅助评估软件(CerebralDoc)已获批我国头颈CTA领域首张NMPA三类证，可辅助医生快速完成头颈部CT血管图像处理，如自动检测狭窄、斑块、动脉瘤等血管异常和高风险病灶等，其重建影像质量表现合格率约92.1%。
医疗辅助诊断技术：包括基于人工智能的诊断辅助系统、智能问诊系统等，可以帮助医生提高诊疗效率，减轻医生工作负担，同时提高诊疗精度。例如：腾讯医疗健康的智能临床辅助决策支持系统（AI- CDSS）能够在医生撰写病历的同时通过人工智能技术实时预测疾病，并给出检查或治疗建议，辅助医生进行疾病诊断，降低误诊及漏诊率。
医学数据分析技术：通过对医疗数据的挖掘和分析，可以发现疾病发生规律、诊疗效果等，帮助医生做出更加科学的诊疗决策，同时促进医疗服务质量的提升。例如：速临科技的智能医学统计分析平台,针对临床研究人员的一站式医学统计分析平台-提供数据治理、数据统计、机器学习分析、智能文章生成服务。
医学机器人技术：通过机器人技术的应用，可以实现精准、高效的手术操作，同时减少手术风险和并发症的发生，提高手术安全性和成功率。例如：睿米RM-50是柏惠维康研制的最新款神经外科手术机器人，可辅助医生完成各类脑出血、脑活检、开颅导航及相关脑部微创手术。
医学健康管理技术：通过数据采集和分析，可以对个体健康状态进行评估和预测，制定个性化的健康管理方案，促进健康生活方式的养成和疾病预防。例如：腾讯医疗健康的区域智慧医疗平台，结合人工智能、大数据、智能设备等先进技术，将公共卫生人口健康信息管理与家庭医生签约服务管理相融合，对重点人群进行健康跟踪、管理、服务与及时干预。

三、医学AI软件测试技术发展

随着医学AI软件的应用越来越广泛，对医学AI软件的可靠性和安全性的要求也越来越高。在传统软件测试中，测试人员仅需对照产品说明书进行功能、接口等测试，而医学AI软件测试与传统医学软件测试最显著的区别在于AI算法的引入。以下是一些区别：

数据集测试：医学AI软件需要大量的数据集来训练AI算法，因此测试人员需要对数据集进行测试，以确保数据集的准确性和完整性。而传统医学软件则不需要数据集测试，因为它们通常只处理少量数据。
模型测试：医学AI软件需要测试AI算法的准确性和效率，因此需要对算法进行测试和验证。而传统医学软件则不需要进行此类测试，因为它们通常是使用已经验证过的算法。
自动化测试：医学AI软件需要自动化测试，以确保算法在不同的数据集上都能够正常工作。而传统医学软件也需要自动化测试，但测试的范围和目的不同。
质量标准：医学AI软件需要符合医疗行业的标准和规定，如《人工智能医疗器械注册审查指导原则》，以确保软件的安全性和有效性。
验证和确认测试：医学AI软件需要进行验证和确认测试，以确保软件的规范和要求得到满足。而传统医学软件也需要进行这种测试，但这种测试的重要性在医学AI软件中更加明显。

总之，医学AI软件测试相对传统医学软件测试而言更为复杂，需要更加细致的测试方法和测试技术，以确保软件的有效性和安全性。目前我国已获批的医学AI企业，基本上采用接口测试工具（如JMeter）、性能测试工具（如Loadrunner）等软件，以自动化测试脚本为主、人工测试为辅的方法对医学AI软件功能、性能等方面进行测试，缺乏专用的AI测试工具和方法。

目前已获NMPA三类证的辅助诊断类AI软件主要功能及软件类型，如下表所示：

我国医学AI软件测试技术的正在逐步发展，主要从标准测评数据库、压力测试、对抗性攻击、数据污染等方面进行研究。

（1）标准测评数据库

医学AI算法测评数据库是重要的算法性能评估方法。AI算法需要大量数据进行训练，而医学数据涉及患者个人信息，常常难以获得，故常借用公开的医学数据库进行模型训练。由于现有数据库存在质量、标准不统一等问题，所以建立标准测试数据库有利于统一医学AI算法评价标准，保证医学AI算法测试的充分性和客观性。故此2021年，北京协和医学建立糖尿病视网膜病变AI标准数据库；2021年，吉林大学第一医院联合多家单位建立首个肺炎CT影像AI标准数据库等等。

（2）压力测试

疾病数据样本通常具有长尾效应，即少数数据呈现出极端高或极端低的情况，而绝大多数数据则呈现出中等水平的趋势。长尾效应的存在，使得我们需要更加关注那些样本数较少的疾病，因为它们可能对人类健康产生严重影响，甚至有些可能是罕见病。所以使用罕见或者特殊的临床数据样本开展算法性能测试，这是评估算法泛化极限能力的重要方法。

（3）对抗性攻击

对抗性攻击是评估算法鲁棒性的重要方法，也是评估医学 AI 软件网络安全的重要手段。通过对输入数据进行修改来检查模型的抵抗力，从而提高模型的可靠性和安全性。在医学领域，数据来源为高敏感的图像与文本，容易受到对抗性扰动，从而影响深度学习模型检测的准确性。

对抗性攻击可分为以下几种类型：

对抗性样本攻击：攻击者将原始数据集中的某些样本进行修改，以使模型在对这些样本进行分类时出错。
对抗性训练攻击：攻击者试图破坏模型的训练过程，以便训练出易受攻击的模型。
模型逃逸攻击：攻击者试图在未知的数据上欺骗模型，使其做出错误的预测。
后门攻击：攻击者将恶意代码注入到模型中，以使模型在特定的输入条件下表现异常。

（4）数据污染

数据污染指的是在数据集中添加或修改错误、虚假或有意误导性的数据，以影响机器学习模型的性能或输出结果。在医学AI软件测试中，数据污染可能会对模型的测试结果产生重大影响。因此，数据污染应该作为一个关键的测试因素来考虑。

医学AI软件测试中的数据污染可以采取以下几种形式：

添加噪声：将随机噪声添加到医学图像或数据中，以模拟真实世界中的噪声和不确定性。这可以帮助测试模型的鲁棒性和稳定性。
删除数据：从医学数据集中删除部分数据，以测试模型对数据缺失的鲁棒性和准确性。
修改标签：修改医学数据集中的标签或注释，以测试模型对于错误标注或标签误差的敏感度和准确性。
修改图像或数据：对医学图像或数据进行修改，以测试模型对于图像或数据污染的敏感度和准确性。

此外，可以使用各种数据增强技术来提高数据集的多样性和鲁棒性，以帮助测试医学AI软件的性能和可靠性。

四、总结与展望

医学AI软件是利用人工智能技术来处理、分析和诊断医学图像、数据和信息的软件。医学AI软件可以帮助医生和医疗专业人员更准确地诊断和治疗疾病，提高医疗保健的质量和效率，同时也为患者提供更好的医疗服务和治疗体验。

医学AI软件的前景非常广阔，随着人工智能技术的不断发展和医疗领域的不断创新，医学AI软件将在未来发挥更重要的作用。它将成为医疗保健的重要组成部分，帮助医生和患者更好地管理和治疗疾病，提高医疗保健的效率和质量。同时，医学AI软件也将推动医学领域的不断发展和进步，带来更多的机会和挑战。而医学AI软件测试技术会伴随着医学AI的发展和应用逐渐完善成熟！

参考文献：

[1]彭润霖,吴凯,陈超敏,邓泽亚,陈铭湘,周静.我国医学人工智能软件及其测试技术发展概况[J].中国医疗设备,2023,38(04):155-160.

[2]王晨希,王权,李佳戈.医疗器械独立软件检测要求及方法[J].中国医疗设备,2020,35(11):66-69+76.