目前,中国心血管病患病率及死亡率仍处于上升阶段。心血管病死亡占城乡居民总死亡原因的首位,据推算中国心血管病现患病人数已经达到 3.30 亿[1]。冠心病(coronary artery disease,CAD)是一种常见的心血管疾病,诊断的金标准是冠脉造影。根据美国心脏病学会的一项研究显示,在接受选择性冠脉造影的患者中,只有 41% 被诊断为梗阻性 CAD[2]。非必要的有创心血管检查无疑会加重患者经济与身心负担。因此,建立精准的 CAD 预测模型,既减少患者不必要的有创检查,又能保证 CAD 的筛查和诊断能力,给予患者更精确的指导,一直是医学研究的热点与难点。
近几十年,研究者们提出了多种对于 CAD 的风险预测模型,从经典的 Diamond-Forrester 模型到机器学习算法。然而,由于用于建模的人群的基础疾病、人种、地域等都存在差异,各模型的实际应用价值尚不清楚。在评价模型的临床应用价值时,了解模型在建模组以外的人群中的应用情况尤为重要,即外部验证效能[3]。因此,我们对经过外部验证的 CAD 预测模型进行系统评价,集中展示各个模型的预测效能。
1 资料与方法
1.1 纳入和排除标准
纳入标准:(1)研究目的为建立或验证 CAD 的诊断预测模型;(2)研究对象为经过传统冠脉造影(conventional coronary angiography,CCA)或有创冠状动脉造影(invasive coronary arteriography,ICA)和/或 CT 冠脉造影成像(cmputed tomography cronary angiography,CTA)检查的患者;(3)模型至少包含 2 种变量且经过外部验证;(4)被其他文章进行外部验证的模型的建模论文。排除标准:(1)模型在特定疾病的人群中建立,如肾功能衰竭、人类免疫缺陷病毒(human immunodeficiency virus,HIV)感染者、心力衰竭者等;(2)模型建立人群仅包含男性或仅有女性的;(3)文章未经过外部验证,或验证队列样本量≤100 例的;(4)系统综述、会议摘要、方法学文献;(5)非中文或英文文献;(6)数据无法转换及提取的。
1.2 检索策略
计算机检索 PubMed、EMbase、中国知网数据库,检索时限为建库至 2020 年 9 月。收集关于预测冠心病模型的研究,中文检索词为:模型、诊断、冠心病、外部验证、造影,英文检索词为:model、diagnosis、coronary artery disease、validation,coronary angiography 等(表 1)。

1.3 文献筛选及资料提取
由两位研究人员独立筛选文献,在意见不一致时与第三位研究人员进行讨论解决。运用 EndNote X9 软件剔除重复的文献。在进行文献初步筛选时,首先阅读文章题目及摘要,排除不相关的文章。下一步开始阅读文献全文,根据纳排标准确定入选文章。提取的内容包括:(1)文献基本情况:第一作者的姓名,发表年份;(2)模型建立与验证信息:入选人群、冠心病定义、冠心病确诊方法、建模组与验证组人数、模型纳入的变量、建模组与验证组发生冠心病的事件数与患病率、建模方法;(3)模型效能信息:建模组、内部验证组、外部验证组各自的区分度与校准度。
1.4 模型的预测效能评价指标
我们提取受试者工作曲线下面积(area under the curve,AUC)与灵敏度、特异度来反映模型的区分度,AUC<0.7 时,提示区分度不佳,AUC 在 0.7~0.8 时,提示区分度适中,当 AUC>0.8 时,提示区分度良好。使用 Hosmer-Lemeshow test 来反映模型的校准度,用来评价观测数与理论数的一致性。
2 结果
2.1 文献检索及筛选流程
通过在 PubMed、EMbase 和中国知网数据库中搜索以及手动检索加入,并排除重复文献后,共得到 4 113 篇文献,通过阅读文章题目及摘要部分,排除不符合本文研究的文献共 4 007 篇,初步筛选出文献 106 篇。进一步阅读全文,排除不符合纳入标准的文献 76 篇:缺少外部验证的文献 74 篇,样本量<100 的文献 1 篇,方法学文献 1 篇,最终 30 篇文献[4-34]纳入研究。文献检索流程图见图 1。

2.2 纳入文章的基线信息
30 篇入选文献中有 17 篇文献建立了新模型,并且这些模型接受过外部验证。其余 13 篇文献均对某一个或多个已有模型进行了外部验证。17 篇建立新模型的文献基本资料见表 1。17 篇文献共建立了 19 个模型。各模型的入选人群主要是出现胸痛症状疑诊 CAD 患者。在定义 CAD 方面,以至少 1 条冠状动脉管腔直径缩小≥50% 为主,诊断 CAD 的方法主要是有创性冠脉造影或 CT 冠状动脉造影成像,1 个模型在 CT 冠脉造影成像的基础上增加了冠状动脉血流储备分数(Fractional flow reserve,FFR)和核素心肌灌注显像(Myocardial perfusion imaging,MPI)。不同模型的建立组人数从 527 到 28 948 不等,7 个模型进行了内部验证,14 个模型在建立时就进行了外部验证。大部分模型纳入 3~10 个变量。几乎所有的诊断模型都纳入年龄、性别和胸痛症状作为变量。1 个模型以面部照片作为预测变量。关于模型的开发方法,1 个模型采用了卷积神经网络,1 个模型采用了随机森林法,2 个模型采用了贝叶斯算法,其余算法均采用 logistic 回归分析。
2.3 模型的预测效能评价
本研究共纳入模型 19 个,各模型的预测效能见表 2。内部验证的方法包括交叉验证、分组验证、bootstrap 验证,以分组验证最常见(4 个)。6 个模型报道了内部验证的 AUC,范围为 0.66~0.93。本文纳入的 19 个模型均进行了外部验证。17 个模型具有 AUC>0.7 的外部验证组,19 个模型的外部验证报告的 AUC 值为 0.49~0.87。共有 13 个模型为新建立并进行了外部验证。新建立的模型中,除 1 个模型预测效能<0.7 外(AUC=0.68),4 个模型具有良好的预测效能(AUC>0.80),8 个模型具有适中的预测效能(AUC=0.70~0.80)。除传统预测因素外,10 个模型包含肌酐、高敏肌蛋白等生物标志物或 CAC 评分等预测因子。1 个模型使用人工智能技术,基于面部照片建立,在外部验证组中,模型的预测效能(AUC=0.73)优于经典的 Diamond Forrester 模型(AUC=0.62)和冠心病联盟临床评分(AUC=0.65)。目前没有对于预测模型合适的偏倚评价方法。19 个纳入研究的模型中,只有 7 个模型报告了 H-L 拟合优度检验的 P 值。大多数研究缺少关于模型校准的信息。

3 讨论
本文对各种预测 CAD 的模型进行系统回顾,涵盖了 19 个经过外部验证的 CAD 诊断预测模型。我们发现,大部分模型具有适中的预测效能;经典的冠心病诊断预测模型在各人群中预测效能差异大,在中国人群中预测效能不佳。
文章纳入的模型大部分(89%)具有适中的预测效能,与既往综述结论相符。在既往综述的基础上,本文进一步提供了两方面信息[34-35]。第一,本文纳入的模型均经过了外部验证,对于预测模型在临床上的推广应用有更高的参考价值。本研究结果提示,现有临床模型虽然在普适性人群中取得了中等的预测效能,但预测效能在模型间及不同人群间差异显著,仍需不断进行模型更新并完善外部验证以保证模型应用。第二,除了传统的预测模型外,本文纳入了利用新型人工智能建模技术建立预测模型的文章以论证人工智能技术的发展对 CAD 预测领域产生的影响。阜外医院郑哲教授和清华大学季向阳教授等通过计算机深度学习算法分析脸部照片[19],利用卷积神经网络建模,结果显示模型预测效能优于 Diamond-Forrester 模型、冠心病联盟临床评分。提示人工智能不仅可以改善模型 CAD 模型预测效能,而且能够整合既往方法无法整合的健康信息,更便捷地完成 CAD 预测。
经典的 CAD 预测模型外部验证效果在不同模型及人群中差异显著。外部验证组 AUC 值最高的是 1983 年 Pryor 等[5]建立的纳入了心电图表现、心肌梗死病史等变量的杜克临床评分,但在各研究中表现的预测效能差异大(AUC 在 0.57~0.87 之间)。1979 年 Diamond 等[4]研究者根据年龄、性别、胸痛类型建立的 Diamond Forrester 模型,因其无需任何额外检查,可由接诊医生直接判断,在 CAD 的诊断预测领域依然发挥着重要作用,但它在不同的研究中展现出的预测效能差异大。在欧美人群中最高,在中东女性中预测效能最低。更新的 Diamond Forrester 模型拓宽了 Diamond Forrester 模型的应用年龄范围[8],多个欧美指南也推荐使用更新的 Diamond Forrester 模型作为估算验前概率的首选模型[36-37]。本文共有 11 项研究对更新的 Diamond Forrester 模型进行外部验证,其中 6 项研究证明更新的 Diamond Forrester 模型具有适中的预测效能(AUC>0.7),总体优于 Diamond Forrester 模型。2012 年冠心病联盟临床评分发布,除年龄、性别、胸痛外,纳入了糖尿病、高血压、血脂异常以及吸烟情况[10]。本文共 8 项研究对冠心病联盟临床评分进行验证,AUC 值均在 0.6 以上,预测效能更加稳定,其中 4 项研究 AUC 值>0.7。可以看出,经典模型在部分人群中仍表现出适中的预测价值。这也提示我们未来可以根据各人群的疾病特点对模型进行调整,在系数与建模方法上对经典模型进行优化使其更好的服务不同区域的患者。
经典的 CAD 预测模型在我国人群中预测效能差异大,总体不佳。杜克临床评分验证效能最低的三项研究均来自中国人群[17, 27-28]。冠心病联盟临床评分、Diamond Forrester 模型的进行外部验证的研究中,预测效能最低的 2 项研究同样来自中国人群[17,19]。此外,本文纳入了 6 项近年在中国人群进行更新 Diamond Forrester 模型验证的研究,结果显示效能差距较大(AUC 值在 0.57~0.77)[17-18, 26-30]。仅 3 项研究具有适中的预测效能(AUC>0.7),其余三项研究预测效能不佳。主要的原因可能是经典模型是根据欧美人群建立,人群的疾病特点等与我国患者存在巨大差异。因此,经典模型在我国人群的验证效果总体不佳,应用价值有限,仍需进一步根据我国人群开发和验证。
未来的研究方向中,可能需要注意以下几方面,以进一步改善模型效能,更好地服务临床实践。第一,建立基于国人数据的风险模型。目前广泛应用的模型均基于国外人群,且在我国人群中验证效能不佳,建立基于国人数据的风险模型势在必行;第二,建模变量宜科学引入生化及最新的生物标志物、影像学检查信息。近年来,纳入生物标志物、影像学检查的预测模型逐渐增加,预测效能普遍优于经典模型。在保证模型应用便捷的前提下,应适当增加相关变量改善模型效能;第三,应用最新建模算法进行模型改进。人工智能算法的发展不仅显著改善了模型预测效能,而且能够整合既往无法整合的健康信息,更便捷地完成疾病预测,是未来的重要研究方向。
本系统评价仍存在一些不足之处,首先,部分文章对 CAD 的定义、确诊方法、建模人群均有所差异。其次,由于大部分文章缺少关于校准度、灵敏度、特异度等指标,本文主要通过 AUC 值评价模型的预测效能,这也提示研究者们应在建模及验证时关注模型的多方面评价。
4 结论
现有的 CAD 预测模型具有适中的预测效能。经典的 CAD 预测模型,如 Diamond Forrester 模型、更新的 Diamond Forrester 模型、杜克临床评分、冠心病临床联盟评分在各人群中的预测效能差异大。现有模型在中国人群中的验证效能不佳。建立基于国人数据的风险模型、科学引入生化及影像信息,充分利用最新算法,将成为未来该领域的重要研究方向。
利益冲突:无。
作者贡献:郑哲、林深、李方舟负责文章的构思与设计,研究的实施与可行性分析,撰写论文;苏小婷,孙润宸负责数据收集与整理,结果的分析与解释;郑哲、林深负责论文的修订、文章质量控制及审校,对文章整体负责,监督管理。
目前,中国心血管病患病率及死亡率仍处于上升阶段。心血管病死亡占城乡居民总死亡原因的首位,据推算中国心血管病现患病人数已经达到 3.30 亿[1]。冠心病(coronary artery disease,CAD)是一种常见的心血管疾病,诊断的金标准是冠脉造影。根据美国心脏病学会的一项研究显示,在接受选择性冠脉造影的患者中,只有 41% 被诊断为梗阻性 CAD[2]。非必要的有创心血管检查无疑会加重患者经济与身心负担。因此,建立精准的 CAD 预测模型,既减少患者不必要的有创检查,又能保证 CAD 的筛查和诊断能力,给予患者更精确的指导,一直是医学研究的热点与难点。
近几十年,研究者们提出了多种对于 CAD 的风险预测模型,从经典的 Diamond-Forrester 模型到机器学习算法。然而,由于用于建模的人群的基础疾病、人种、地域等都存在差异,各模型的实际应用价值尚不清楚。在评价模型的临床应用价值时,了解模型在建模组以外的人群中的应用情况尤为重要,即外部验证效能[3]。因此,我们对经过外部验证的 CAD 预测模型进行系统评价,集中展示各个模型的预测效能。
1 资料与方法
1.1 纳入和排除标准
纳入标准:(1)研究目的为建立或验证 CAD 的诊断预测模型;(2)研究对象为经过传统冠脉造影(conventional coronary angiography,CCA)或有创冠状动脉造影(invasive coronary arteriography,ICA)和/或 CT 冠脉造影成像(cmputed tomography cronary angiography,CTA)检查的患者;(3)模型至少包含 2 种变量且经过外部验证;(4)被其他文章进行外部验证的模型的建模论文。排除标准:(1)模型在特定疾病的人群中建立,如肾功能衰竭、人类免疫缺陷病毒(human immunodeficiency virus,HIV)感染者、心力衰竭者等;(2)模型建立人群仅包含男性或仅有女性的;(3)文章未经过外部验证,或验证队列样本量≤100 例的;(4)系统综述、会议摘要、方法学文献;(5)非中文或英文文献;(6)数据无法转换及提取的。
1.2 检索策略
计算机检索 PubMed、EMbase、中国知网数据库,检索时限为建库至 2020 年 9 月。收集关于预测冠心病模型的研究,中文检索词为:模型、诊断、冠心病、外部验证、造影,英文检索词为:model、diagnosis、coronary artery disease、validation,coronary angiography 等(表 1)。

1.3 文献筛选及资料提取
由两位研究人员独立筛选文献,在意见不一致时与第三位研究人员进行讨论解决。运用 EndNote X9 软件剔除重复的文献。在进行文献初步筛选时,首先阅读文章题目及摘要,排除不相关的文章。下一步开始阅读文献全文,根据纳排标准确定入选文章。提取的内容包括:(1)文献基本情况:第一作者的姓名,发表年份;(2)模型建立与验证信息:入选人群、冠心病定义、冠心病确诊方法、建模组与验证组人数、模型纳入的变量、建模组与验证组发生冠心病的事件数与患病率、建模方法;(3)模型效能信息:建模组、内部验证组、外部验证组各自的区分度与校准度。
1.4 模型的预测效能评价指标
我们提取受试者工作曲线下面积(area under the curve,AUC)与灵敏度、特异度来反映模型的区分度,AUC<0.7 时,提示区分度不佳,AUC 在 0.7~0.8 时,提示区分度适中,当 AUC>0.8 时,提示区分度良好。使用 Hosmer-Lemeshow test 来反映模型的校准度,用来评价观测数与理论数的一致性。
2 结果
2.1 文献检索及筛选流程
通过在 PubMed、EMbase 和中国知网数据库中搜索以及手动检索加入,并排除重复文献后,共得到 4 113 篇文献,通过阅读文章题目及摘要部分,排除不符合本文研究的文献共 4 007 篇,初步筛选出文献 106 篇。进一步阅读全文,排除不符合纳入标准的文献 76 篇:缺少外部验证的文献 74 篇,样本量<100 的文献 1 篇,方法学文献 1 篇,最终 30 篇文献[4-34]纳入研究。文献检索流程图见图 1。

2.2 纳入文章的基线信息
30 篇入选文献中有 17 篇文献建立了新模型,并且这些模型接受过外部验证。其余 13 篇文献均对某一个或多个已有模型进行了外部验证。17 篇建立新模型的文献基本资料见表 1。17 篇文献共建立了 19 个模型。各模型的入选人群主要是出现胸痛症状疑诊 CAD 患者。在定义 CAD 方面,以至少 1 条冠状动脉管腔直径缩小≥50% 为主,诊断 CAD 的方法主要是有创性冠脉造影或 CT 冠状动脉造影成像,1 个模型在 CT 冠脉造影成像的基础上增加了冠状动脉血流储备分数(Fractional flow reserve,FFR)和核素心肌灌注显像(Myocardial perfusion imaging,MPI)。不同模型的建立组人数从 527 到 28 948 不等,7 个模型进行了内部验证,14 个模型在建立时就进行了外部验证。大部分模型纳入 3~10 个变量。几乎所有的诊断模型都纳入年龄、性别和胸痛症状作为变量。1 个模型以面部照片作为预测变量。关于模型的开发方法,1 个模型采用了卷积神经网络,1 个模型采用了随机森林法,2 个模型采用了贝叶斯算法,其余算法均采用 logistic 回归分析。
2.3 模型的预测效能评价
本研究共纳入模型 19 个,各模型的预测效能见表 2。内部验证的方法包括交叉验证、分组验证、bootstrap 验证,以分组验证最常见(4 个)。6 个模型报道了内部验证的 AUC,范围为 0.66~0.93。本文纳入的 19 个模型均进行了外部验证。17 个模型具有 AUC>0.7 的外部验证组,19 个模型的外部验证报告的 AUC 值为 0.49~0.87。共有 13 个模型为新建立并进行了外部验证。新建立的模型中,除 1 个模型预测效能<0.7 外(AUC=0.68),4 个模型具有良好的预测效能(AUC>0.80),8 个模型具有适中的预测效能(AUC=0.70~0.80)。除传统预测因素外,10 个模型包含肌酐、高敏肌蛋白等生物标志物或 CAC 评分等预测因子。1 个模型使用人工智能技术,基于面部照片建立,在外部验证组中,模型的预测效能(AUC=0.73)优于经典的 Diamond Forrester 模型(AUC=0.62)和冠心病联盟临床评分(AUC=0.65)。目前没有对于预测模型合适的偏倚评价方法。19 个纳入研究的模型中,只有 7 个模型报告了 H-L 拟合优度检验的 P 值。大多数研究缺少关于模型校准的信息。

3 讨论
本文对各种预测 CAD 的模型进行系统回顾,涵盖了 19 个经过外部验证的 CAD 诊断预测模型。我们发现,大部分模型具有适中的预测效能;经典的冠心病诊断预测模型在各人群中预测效能差异大,在中国人群中预测效能不佳。
文章纳入的模型大部分(89%)具有适中的预测效能,与既往综述结论相符。在既往综述的基础上,本文进一步提供了两方面信息[34-35]。第一,本文纳入的模型均经过了外部验证,对于预测模型在临床上的推广应用有更高的参考价值。本研究结果提示,现有临床模型虽然在普适性人群中取得了中等的预测效能,但预测效能在模型间及不同人群间差异显著,仍需不断进行模型更新并完善外部验证以保证模型应用。第二,除了传统的预测模型外,本文纳入了利用新型人工智能建模技术建立预测模型的文章以论证人工智能技术的发展对 CAD 预测领域产生的影响。阜外医院郑哲教授和清华大学季向阳教授等通过计算机深度学习算法分析脸部照片[19],利用卷积神经网络建模,结果显示模型预测效能优于 Diamond-Forrester 模型、冠心病联盟临床评分。提示人工智能不仅可以改善模型 CAD 模型预测效能,而且能够整合既往方法无法整合的健康信息,更便捷地完成 CAD 预测。
经典的 CAD 预测模型外部验证效果在不同模型及人群中差异显著。外部验证组 AUC 值最高的是 1983 年 Pryor 等[5]建立的纳入了心电图表现、心肌梗死病史等变量的杜克临床评分,但在各研究中表现的预测效能差异大(AUC 在 0.57~0.87 之间)。1979 年 Diamond 等[4]研究者根据年龄、性别、胸痛类型建立的 Diamond Forrester 模型,因其无需任何额外检查,可由接诊医生直接判断,在 CAD 的诊断预测领域依然发挥着重要作用,但它在不同的研究中展现出的预测效能差异大。在欧美人群中最高,在中东女性中预测效能最低。更新的 Diamond Forrester 模型拓宽了 Diamond Forrester 模型的应用年龄范围[8],多个欧美指南也推荐使用更新的 Diamond Forrester 模型作为估算验前概率的首选模型[36-37]。本文共有 11 项研究对更新的 Diamond Forrester 模型进行外部验证,其中 6 项研究证明更新的 Diamond Forrester 模型具有适中的预测效能(AUC>0.7),总体优于 Diamond Forrester 模型。2012 年冠心病联盟临床评分发布,除年龄、性别、胸痛外,纳入了糖尿病、高血压、血脂异常以及吸烟情况[10]。本文共 8 项研究对冠心病联盟临床评分进行验证,AUC 值均在 0.6 以上,预测效能更加稳定,其中 4 项研究 AUC 值>0.7。可以看出,经典模型在部分人群中仍表现出适中的预测价值。这也提示我们未来可以根据各人群的疾病特点对模型进行调整,在系数与建模方法上对经典模型进行优化使其更好的服务不同区域的患者。
经典的 CAD 预测模型在我国人群中预测效能差异大,总体不佳。杜克临床评分验证效能最低的三项研究均来自中国人群[17, 27-28]。冠心病联盟临床评分、Diamond Forrester 模型的进行外部验证的研究中,预测效能最低的 2 项研究同样来自中国人群[17,19]。此外,本文纳入了 6 项近年在中国人群进行更新 Diamond Forrester 模型验证的研究,结果显示效能差距较大(AUC 值在 0.57~0.77)[17-18, 26-30]。仅 3 项研究具有适中的预测效能(AUC>0.7),其余三项研究预测效能不佳。主要的原因可能是经典模型是根据欧美人群建立,人群的疾病特点等与我国患者存在巨大差异。因此,经典模型在我国人群的验证效果总体不佳,应用价值有限,仍需进一步根据我国人群开发和验证。
未来的研究方向中,可能需要注意以下几方面,以进一步改善模型效能,更好地服务临床实践。第一,建立基于国人数据的风险模型。目前广泛应用的模型均基于国外人群,且在我国人群中验证效能不佳,建立基于国人数据的风险模型势在必行;第二,建模变量宜科学引入生化及最新的生物标志物、影像学检查信息。近年来,纳入生物标志物、影像学检查的预测模型逐渐增加,预测效能普遍优于经典模型。在保证模型应用便捷的前提下,应适当增加相关变量改善模型效能;第三,应用最新建模算法进行模型改进。人工智能算法的发展不仅显著改善了模型预测效能,而且能够整合既往无法整合的健康信息,更便捷地完成疾病预测,是未来的重要研究方向。
本系统评价仍存在一些不足之处,首先,部分文章对 CAD 的定义、确诊方法、建模人群均有所差异。其次,由于大部分文章缺少关于校准度、灵敏度、特异度等指标,本文主要通过 AUC 值评价模型的预测效能,这也提示研究者们应在建模及验证时关注模型的多方面评价。
4 结论
现有的 CAD 预测模型具有适中的预测效能。经典的 CAD 预测模型,如 Diamond Forrester 模型、更新的 Diamond Forrester 模型、杜克临床评分、冠心病临床联盟评分在各人群中的预测效能差异大。现有模型在中国人群中的验证效能不佳。建立基于国人数据的风险模型、科学引入生化及影像信息,充分利用最新算法,将成为未来该领域的重要研究方向。
利益冲突:无。
作者贡献:郑哲、林深、李方舟负责文章的构思与设计,研究的实施与可行性分析,撰写论文;苏小婷,孙润宸负责数据收集与整理,结果的分析与解释;郑哲、林深负责论文的修订、文章质量控制及审校,对文章整体负责,监督管理。