【医学影像 AI】P 评分:ROP血管变化的基于参考图像的临床分级量表


0. 论文简介

0.1 基本信息

2024 年,美国 Gil Binenbaum 等在 Ophthalmology 发表论文 “P 评分:ROP血管变化的基于参考图像的临床分级量表(P Score: A Reference Image-Based Clinical Grading Scale for Vascular Change in Retinopathy of Prematurity)”。

本文的主要贡献在于开发了一种基于参考图像的临床评分系统——P Score,用于早产儿视网膜病变(ROP)中血管变化的标准化分级。这一系统通过提供 9个参考图像,帮助临床医生更细致地描述和记录ROP相关的血管变化,从而减少不同检查者在评估附加病变(plus disease)时的变异性。
P Score为ROP的诊断、治疗和研究提供了重要的工具和方法,有助于提高临床实践的标准化和一致性。

论文下载: Ophthalmology
引用格式:
Gil Binenbaum, Andreas Stahl, Aaron S. Coyner, et al., P Score: A Reference Image-Based Clinical Grading Scale for Vascular Change in Retinopathy of Prematurity, Ophthalmology, Volume 131, Issue 11, 1297 - 1303


0.2 摘要

  1. 目的:
    《早产儿视网膜病变国际分类(第三版)》(ICROP3)指出,类似 Plus 病的早产儿视网膜病变(ROP)血管变化是一个连续谱。历史上,临床专家对Plus病的诊断存在不一致性。我们开发了一套包含 9张参考图像的图集,用于分级类似Plus病的血管变化,并将该图集的分级一致性与传统分级方法(无Plus病、Preplus病和Plus病)进行了比较。

  2. 设计:
    视网膜照片分级与专家共识意见。

  3. 参与者:
    开发集包括34名国际ICROP3委员会成员。验证集包括30名具有ROP专业知识的眼科医生(15名ICROP3委员会成员和15名非ICROP3成员)。

  4. 方法:
    基于34名ICROP3委员会成员的分级和共识图像审查,选择了9张ROP眼底图像(P1至P9),这些图像代表了I区血管迂曲和扩张的逐渐加重程度,用于建立Plus(P)评分的标准照片。
    研究参与者对150张眼底照片进行了两种方式的分级,间隔一周的洗脱期:(1)无Plus病、Preplus病或Plus病;(2)选择最接近的P评分图像。

  5. 主要结果指标:
    通过组内相关系数(ICC)衡量分级者之间的一致性。

  6. 结果:
    使用P评分时,分级者之间的一致性更高(组内相关系数,0.75;95%置信区间,0.71–0.79),而传统分级方法(无Plus病、Preplus病或Plus病)的一致性较低(组内相关系数,0.67;95%置信区间,0.62–0.72)。无Plus病、Preplus病和Plus病模式分级的图像的平均P评分分别为2.5 ± 0.7、4.8 ± 0.8和7.4 ± 0.8。

  7. 结论:
    使用P评分对ROP中类似Plus病的血管变化进行分级时,分级者之间的一致性较高。我们现在将这9张参考图像集纳入ICROP3,供临床医生在日常实践中与分区、分期和Plus病评估一起使用。P评分目前尚不用于替代治疗决策中的Plus病诊断,但在我们的机构中,它的使用使得检查之间的进展和退行比较、检查者之间的沟通以及无眼底成像的血管变化记录更加完善。P评分还可以为临床试验提供更详细的ROP分类,与类似Plus病变化的连续谱一致,这现已成为《早产儿视网膜病变国际分类》的正式组成部分。

关键词:
ICROP,ICROP3,P评分,Plus病,ROP

缩写和首字母缩略词
ICROP:早产儿视网膜病变国际分类
ICROP3:早产儿视网膜病变国际分类,第三版
P:plus, 加号
ROP:早产儿视网膜病变
SD:标准偏差


1. 引言

早产儿视网膜病变(ROP, Retinopathy of prematurity)是一种影响视网膜血管发育的疾病,是全球儿童失明的主要原因之一[1, 2]。
该疾病根据《早产儿视网膜病变国际分类》(ICROP)进行分类,该分类最初于1984年发布[3],1987年扩展[4],2005年更新(ICROP2)[5],并于2021年再次更新(ICROP3)[6]。该疾病的三个关键特征是分期(stage)、区域(zone)以及“附加病变”(plus disease)。
附加病变在ROP的诊断和治疗中起着核心作用,作为严重病变的标志,可能需要治疗以防止进展为视网膜脱离[5, 7]。在ICROP和ICROP2中,附加病变被定义为视网膜静脉扩张和视网膜小动脉蜿蜒,且至少两个象限的血管形态达到与视盘及视盘周围血管弓的窄视野参考图像中显示的严重程度相当[3, 5]。
过去40年中,指导ROP治疗标准的随机对照试验也采用了类似的基于标准照片的定义,包括至今仍在使用的“早产儿视网膜病变早期治疗研究”中的 1型ROP标准[7, 8]。ICROP2中还引入了“前附加病变”(preplus disease)的概念,用以描述未严重到符合附加病变标准的血管改变[5]。

在ICROP3中,对附加病变的定义进行了重要更新[6, 9]。

  • 现在,后极部视网膜血管的扩张和蜿蜒适用于小静脉和小动脉,而不再具体区分哪种血管扩张或蜿蜒。
  • 判断这些血管变化的区域现定义为整个 I 区,而不仅仅是围绕视盘的窄视野视网膜参考照片所暗示的视盘周围区域。
  • 此外,不再要求这些病变必须出现在两个或多个象限。
  • 之前被纳入附加病变定义的特征,如虹膜血管充血、瞳孔扩张不良和玻璃体混浊,虽然被认为是严重病变的标志,但不再是附加病变诊断的必要条件。
  • 最后,虽然“附加病变(plus)”和“前附加病变(preplus)”术语仍在使用,但 ICROP3正式承认附加病变和前附加病变是血管变化谱系中的一部分,范围从正常到严重的附加病变。

尽管使用标准照片进行附加病变的诊断,临床专家对附加病变诊断的一致性仍存在差异[10–13]。这种差异使研究最佳治疗时机和方式、标准化临床实践以及眼科医生教育变得复杂。附加病变诊断的不一致部分原因是临床医生对诊断附加病变或前附加病变所需的血管变化程度持有不同的、内部一致的分界点[14]。使用比“无附加病变/前附加病变/附加病变”更细化的血管评分量表可能有助于提高诊断者之间的一致性和沟通效果。更细化的量表也与ICROP3最近正式承认的急性期ROP中附加病变样血管变化谱系相一致,并提供了一种实际的实施方式[9]。为了更好地标准化ROP分类,我们首先开发了一个由 9 张参考图像组成的集合,用于描述 ROP 中后极部视网膜血管的外观,借助 ICROP3 委员会 34 名国际成员的图像评分。然后,我们让检查者对ROP图像进行评分,并比较使用 9 张参考图像集合与传统的无附加病变/前附加病变/附加病变评分方法之间的一致性。我们假设使用 9 张图像集合时,诊断者之间的一致性会更高。


2. 方法

2.1 P评分图像集的开发

通过结合独立的盲法分级和共识选择,开发了一套代表从无Plus病到严重Plus病的类似Plus病血管变化谱的参考图像集。
这些图像来自“ROP影像与信息学(i-ROP)联盟”图像库,展示了早产儿ROP患者I区视网膜血管的广角眼底图像。图像使用RetCam 3眼底相机(Natus Medical System Inc., Pleasanton, CA, USA)在联盟的9家医院拍摄。
34名来自不同国家的ICROP3委员会成员对30张图像进行了分级,这些图像代表了从无(细小直血管)到严重(非常粗大且迂曲的血管)的类似Plus病血管变化的不同程度。
分级通过两种方式进行,生成两种反映类似Plus病变化逐渐增加的序数排名。首先,每张照片被单独分级为无Plus病、Preplus病或Plus病,生成基于分级者将图像标记为Plus病比例的序数排名。其次,对所有图像对进行两两比较,选择具有更多类似Plus病变化的图像,生成第二种序数排名。这两种序数排名随后被用于由ICROP3成员小组(GB、AS、SO、JPC)进行的共识图像选择过程。
小组最初选择了9张图像(标记为P1至P9),这些图像基于两种序数排名代表了I区血管迂曲和扩张的逐渐加重程度。通过迭代过程,小组更新了这套图像,直到达成共识,认为最终的参考图像集提供了从P1到P9最明确的类似Plus病变化谱,并作为“Plus(P)评分”量表的标准照片。
值得注意的是,其中一张图像(P5)是从i-ROP数据集中通过共识选择的,但未包含在初始分级过程中,因为小组认为该图像更好地代表了中间血管严重程度(即介于P4和P6之间)。左眼图像被翻转以保持相似的方位,便于比较。


2.2 P评分图像集的评估

使用新的分级者队列和i-ROP图像库中的新图像集对P评分参考图像集进行了评估。
30名具有ROP诊断和管理专业知识的眼科医生对一组来自ROP筛查早产儿的视网膜图像进行了分级。其中15名分级者是ICROP3委员会成员,另外15名不是(见致谢部分)。分级者独立对150张显示I区视网膜血管的眼底图像进行了分类。
分级通过两种方式进行,间隔至少一周的洗脱期:(1)基于临床判断,选择无Plus病、Preplus病或Plus病分类,不使用参考图像;(2)选择最接近视网膜血管外观的P评分图像(P1至P9)。
除了对150张图像进行分级外,其中30张图像被重复包含,以评估分级者内部的一致性,因此实际上每位分级者对180张图像进行了两种方式的分级(无/Preplus/Plus和P评分)。两组分级中包含了相同的30张重复图像,分级者不知道有重复图像,也不知道哪些图像是重复的。


2.3 统计分析

主要结果是30名分级者对150张图像的分级一致性,分别计算无/Preplus/Plus分级和P评分分级的组内相关系数(ICC)及其95%置信区间(95% CI)。
次要结果包括使用加权Kappa统计量(Cicchetti-Allison权重)和百分比一致性测量的分级者之间的一致性,P评分分级被认为一致如果相差不超过1个P评分级别,以便在9级分级量表和3级无/Preplus/Plus分级之间进行比较;分级者之间的一致性还通过每对分级者分配的P评分的平均绝对差异来衡量;每张图像的P评分分级在平均P评分±1个图像编号(P1-P9)范围内的百分比;根据所有分级者的无/Preplus/Plus分级模式将图像分组后,每张图像的平均P评分;以及使用加权Kappa统计量测量的30张重复图像的分级者内部一致性。所有分析均使用SAS 9.4版(SAS Institute, Cary, North Carolina)完成。


2.4 伦理声明

该研究获得了俄勒冈健康科学大学机构审查委员会的批准,并遵循了《赫尔辛基宣言》的原则,所有参与者均签署了书面知情同意书。


3. 结果

图1 展示了从P1到P9的九个P-score参考图像。
使用 P1 到 P9 的P-score图像评分时,30位评分者对150张视网膜图像的一致性(ICC 0.75,95% CI 0.71–0.79)高于无附加病变/前附加病变/附加病变评分(ICC 0.67,95% CI 0.62–0.72)。

在这里插入图片描述
图1。P评分参考图像。图像标记为 P1至P9,展示了后极部视网膜血管迂曲和扩张的逐渐加重程度。


在435对评分者中,P-score评分的组间一致性(加权Kappa均值0.81,标准差0.05;一致率均值75.6%,标准差9.4%)也高于无附加病变/前附加病变/附加病变评分(加权Kappa均值0.71,标准差0.06;一致率均值67.1%,标准差9.5%)。
在30位评分者对150张图像的65,250次评分中,P-score评分的均差为1.1(标准差1.0)。在这些评分对中,33%的评分完全一致,74%的评分相差不超过1个P-score等级,91%的评分相差不超过2个P-score等级。
在30位评分者中,各图像的P-score评分与均值的差异不超过1个P-score等级的比例在最低(P1-P3)和最高(P7-P9)评分等级中最高,而在中等评分等级(P4-P6)中最低(图2)。对于众数为无附加病变(n=68张图像)、前附加病变(n=62张图像)和附加病变(n=20张图像)的图像,其P-score均值分别为2.5(标准差0.7)、4.8(标准差0.8)和7.4(标准差0.8)(图3)。在无附加病变、前附加病变和附加病变三组中,个体P-score评分存在一定的重叠(图4)。
在30位评分者对30张图像的两轮评分中,无附加病变/前附加病变/附加病变评分的一致性(加权Kappa均值0.78,标准差0.075)高于P-score评分的一致性(加权Kappa均值0.70,标准差0.088)。

在这里插入图片描述
图2. 对于30名分级者对150张图像的分级,P评分分级在1个P评分级别内(Y轴)的比例,作为平均P评分(X轴)的函数。分级在 1个P评分级别内可以是低1级、相同或高1级,P评分级别范围为P1到P9。


在这里插入图片描述
图3。150张图像的平均P评分(X轴,范围从P1到P9),按模式分级为无Plus病(n=68张图像)、Preplus病(n=62张图像)或Plus病(n=20张图像)分组(Y轴)。P评分和无/Preplus/Plus分级由30名分级者完成。Y轴上的模式诊断指的是每张图像的最常见诊断(无/Preplus/Plus)。


在这里插入图片描述
图4。150张图像的个体P评分(X轴,范围从P1到P9),按模式分级为无Plus病、Preplus病或Plus病分组(Y轴)。P评分和无/Preplus/Plus分级由30名分级者完成。Y轴上的模式诊断指的是每张图像的最常见诊断(无/Preplus/Plus)。


4. 讨论

我们开发了一套包含9个参考图像的“P-score”评分系统,按照附加病变样血管变化的程度递增排列,供临床医生在ROP分类时与现有的ICROP分区、分期和附加病变术语结合使用。例如,一只眼可能被诊断为“II区,3期,前附加病变,P5”。

P-score提供了一种方法来体现最新的ICROP更新中正式认可的ROP相关血管变化的连续谱[6]。使用P-score似乎减少了不同检查者在记录附加病变样变化时的变异性。在正式的评分者间一致性研究中,我们发现临床医生在使用基于9张图像的P-score时比使用基于单一ICROP参考图像的无附加病变/前附加病变/附加病变传统诊断方法表现出更高的一致性。

过去18个月中,我们在多家医院临床上使用了P-score,并观察到一些实际的益处。根据我们的临床观察,我们假设P-score的使用有助于更详细地比较检查结果,以评估疾病的进展和消退(无论是自发性还是治疗后);在同一机构内(如ROP轮换时)和不同机构间(如评估转诊请求以确定是否需要治疗)更有效地进行沟通;并且在没有眼底成像的情况下,更详细地记录ROP相关血管变化的程度。P-score的另一个有用之处是通过连续检查量化与玻璃体腔注射抗VEGF药物后疾病再激活相关的血管变化速度,这可能有助于临床医生做出再治疗决策。

P-score的另一个潜在好处是为ROP研究提供更详细的分类。广泛采用并一致记录P-score将使基于医疗记录的观察性研究和注册数据收集更为容易。使用P-score进行详细的血管分级可能有助于开展临床试验,回答诸如“我们能否基于P-score评定的血管变化程度和其他已识别的风险因素,优化治疗标准并识别可能受益于早期治疗的眼?”等问题。

虽然P-score可能有助于更详细的ROP分类,但它目前并不是为了取代附加病变的诊断。应继续使用ICROP中定义的附加病变诊断,因为指导我们治疗决策的主要证据来自以附加病变为核心标准的随机试验[7]。我们发现P-score与附加病变诊断的相关性较好,无附加病变、前附加病变和附加病变的评分分别集中在P-score为2.5、5.5和7.5的范围内,尽管存在重叠,这可能反映了临床医生在附加病变诊断中的变异性(图3和图4)。

检查者之间在附加病变诊断中的变异性是临床实践和研究中公认的问题[10–13]。分歧的原因尚不完全清楚,但可能包括考虑的视网膜区域(后极部与视盘周围)的差异、对蜿蜒与扩张的不同强调、对小静脉与小动脉变化的不同关注,或如一些研究所示,尽管ICROP发布了标准图像,但临床医生对附加病变诊断所需的血管变化程度的阈值存在差异[14]。P-score的一个优势是,它需要将患眼与参考集中的9张图像中最接近的一张匹配,而不是判断患眼是否达到或超过单一附加病变图像的血管变化程度。因此,评分者可能被迫更仔细地检查集中的每张图像以选出最佳匹配。这种动态可能部分解释了我们在P-score中观察到的更高评分者间一致性。

尽管P评分的分级者间一致性总体较好,但这种一致性在P1到P9的整个量表中并不一致。分级者间的一致性在模式P评分较低(P1-P3)和较高(P7-P9)的视网膜图像中较高(图2)。而对于模式P评分处于中间范围(P4-P6)的图像,分级者间的一致性相对较低。通过检查P4、P5和P6的图像(图1),可以发现每张照片中不同血管之间甚至同一血管的不同部分之间存在不同程度的扩张和迂曲。这种血管特征的变化可能导致分级者间的一致性降低,具体取决于每位分级者在查看P评分参考图像时关注的特征和区域。被分级眼睛的血管中类似的变异可能会进一步增加分级者之间的差异。

为了解决这个问题,我们检查了最常被分级为P4、P5和P6的研究图像(每种P评分的前3张图像),以寻找可能用于参考集中这些P评分级别的更明确的图像(图5)。然而,所有这些图像在血管特征上都具有相似的变异性,没有一张明显优于参考集中已选择的图像。虽然可以选择一张强调某一特征(如迂曲度优于扩张度)的图像,但我们尚不清楚哪些特征对ROP的预后最有价值。当我们更好地理解哪些特征在临床上最重要时,可以考虑更改参考图像以最好地反映这些特征。

另一个需要考虑的测试特性是分级者内部的一致性。P评分的分级者内部一致性或可重复性略低于无/Preplus/Plus分级。然而,当临床医生必须从9个选项而不是3个选项中选择时,这一发现是可以预期的,总体而言,分级者内部的一致性仍然较好。

我们建议将P评分作为《国际分类》的新元素纳入,并建议临床医生在ROP诊断中开始使用它,同时结合分区、分期和Plus病。Plus病仍然是ROP分类的关键,因为我们用于治疗决策的证据部分基于Plus病的诊断。然而,P评分允许对ROP中类似Plus病的变化进行更细致的分级,提高了评估后极部血管变化时分级者间的一致性,并可能对旨在最大化ROP婴儿视觉结果的临床医生和研究人员有所帮助。


6. 参考文献

  1. Sabri K, Ells AL, Lee EY, et al. Vinekar A Retinopathy of Prematurity: A Global Perspective and Recent Developments. Pediatrics 2022;150(3).

  2. Blencowe H, Lawn JE, Vazquez T, et al. Gilbert C Preterm-associated visual impairment and estimates of retinopathy of prematurity at regional and global levels for 2010. Pediatr Res 2013;74 Suppl 1(Suppl 1):35–49.

  3. An international classification of retinopathy of prematurity. The Committee for the Classification of Retinopathy of Prematurity. Arch Ophthalmol 1984;102(8):1130–4.

  4. An international classification of retinopathy of prematurity. II. The classification of retinal detachment. The International Committee for the Classification of the Late Stages of Retinopathy of Prematurity. Arch Ophthalmol 1987;105(7):906–12.

  5. The International Classification of Retinopathy of Prematurity revisited. Arch Ophthalmol 2005;123(7):991–9.

  6. Chiang MF, Quinn GE, Fielder AR, et al. Zin A International Classification of Retinopathy of Prematurity, Third Edition. Ophthalmology 2021;128(10):e51–e68.

  7. Early Treatment for Retinopathy of Prematurity Cooperative G. Revised indications for the treatment of retinopathy of prematurity: results of the early treatment for retinopathy of prematurity randomized trial. Arch Ophthalmol 2003;121(12):1684–94.

  8. Multicenter trial of cryotherapy for retinopathy of prematurity: preliminary results. Cryotherapy for Retinopathy of Prematurity Cooperative Group. Pediatrics 1988;81(5):697–706.

  9. Fielder AR, Quinn GE, Paul Chan RV, et al. Committee IC Retinopathy of prematurity classification updates: possible implications for treatment. J AAPOS 2022;26(3):109112.

  10. Chiang MF, Jiang L, Gelman R, et al. Flynn JT Interexpert agreement of plus disease diagnosis in retinopathy of prematurity. Arch Ophthalmol 2007;125(7):875–80.

  11. Wallace DK, Quinn GE, Freedman SF, et al. Agreement among pediatric ophthalmologists in diagnosing plus and pre-plus disease in retinopathy of prematurity. J AAPOS 2008;12(4):352–6.

  12. Campbell JP, Kalpathy-Cramer J, Erdogmus D, et al. Imaging, Informatics in Retinopathy of Prematurity Research C. Plus Disease in Retinopathy of Prematurity: A Continuous Spectrum of Vascular Abnormality as a Basis of Diagnostic Variability. Ophthalmology 2016;123(11):23382344.

  13. Fleck BW, Williams C, Juszczak E, et al. Group BIRIDA An international comparison of retinopathy of prematurity grading performance within the Benefits of Oxygen Saturation Targeting II trials. Eye (Lond) 2018;32(1):74–80.

  14. Campbell JP, Chiang MF, Chen JS, et al. The Collaborative Community in Ophthalmic Imaging Retinopathy of Prematurity W Artificial Intelligence for Retinopathy of Prematurity: Validation of a Vascular Severity Scale against International Expert Diagnosis. Ophthalmology 2022;129(7):e69–e76.


版权说明:
本文由 youcans@xidian 对论文 Use of an Artificial Intelligence-Generated Vascular Severity Score Improved Plus Disease Diagnosis in Retinopathy of Prematurity 进行摘编和翻译。该论文版权属于原文期刊和作者,本译文只供研究学习使用。

youcans@xidian 作品,转载必须标注原文链接:
【医学影像 AI】人工智能评价血管严重程度用于 ROP Plus 诊断(https://youcans.blog.csdn.net/article/details/146348551)
Crated:2025-03