您所在的位置:
基于电子健康档案的可解释机器学习模型:用于预测类风湿关节炎患者的长期死亡风险
作者: 魏士雄
单位: 中国医学科学院北京协和医院

摘要

 本研究旨在利用类风湿关节炎(RA)患者的大规模电子健康档案(EHR)数据,构建并验证一种基于可解释机器学习的生存模型,用于预测患者个体的长期死亡风险并识别关键预后因素,从而为临床风险分层、预防及管理提供循证依据。

本研究纳入了 2009 年至 2021 年间参与国家风湿病临床医学研究中心(NCRC)数据库的 486 家机构共 108,518 名 RA 患者(含 269,428 条临床记录)的多中心队列。通过将国家身份证号与中国疾病预防控制中心(CDC)死因监测系统进行确定性链接来确定生存结局。从 EHR 中提取了涵盖人口统计学特征、疾病相关特征、实验室指标及合并症在内的 92 个基线变量。利用 tidymodels 框架,在三种采样策略(处理类别不平衡、上采样、下采样)下,系统评估了跨 5 个模型族的 9 种生存分析算法,共产生 27 个不同的建模工作流。通过时间依赖性一致性指数(C-index)、时间依赖性受试者工作特征曲线下面积(ROC-AUC)和综合 Brier 分数(IBS)评估模型性能。采用 SHapley 加法解释(SHAP)实现模型在全局和个体层面的可解释性。最后,利用 R Shiny 开发了一个交互式临床风险预测原型。

经过数据预处理和结局判定,最终 87,150 名具有完整随访信息的患者被纳入分析,总体病死率为 3.75%。在所有候选模型中,正则化 Cox 比例风险模型(base_proportional_hazards_glmnet)表现出最佳的预测性能。在独立测试集中,该模型的 C-index 达到 0.844,综合时间依赖性 ROC-AUC 为 0.768(预测时间 > 27,984 天)。SHAP 分析显示,年龄、性别、疾病活动度(DAS28-CRP)、医保类型、代谢与身体成分指数(MBI)、产次、心血管并发症和感染是长期死亡风险最重要的预测因子。成功开发了基于 R Shiny 的临床决策支持工具,实现了风险个体化可视化和实时临床预警。

基于 EHR 的正则化 Cox 比例风险模型能够对 RA 患者的长期死亡风险提供准确且可解释的预测。SHAP 可解释性与用户友好的 Shiny 应用程序相结合,表明该模型具有整合入临床决策支持系统的潜力,有助于推动个体化风险评估与管理。

关键词: 机器学习;类风湿关节炎;死亡风险;生存预测;时间依赖性分析;多中心研究
来源:中华医学会第二十八次风湿病学学术会议