摘要
构建并验证基于常规临床及实验室指标的可解释机器学习模型,以实现对干燥综合征(Sjögren’s syndrome,SjD)患者合并间质性肺病(interstitial lung disease,ILD)风险的早期识别与分层评估。
采用横断面研究设计,纳入2023年6月1日至2025年12月31日于中国中医科学院广安门医院就诊的SjD患者645例,根据是否合并ILD分为SjD-ILD组(n=126)与SjD-nonILD组(n=519)。收集一般资料、免疫炎症指标、血常规、生化指标、自身抗体及临床症状等变量。以是否合并ILD为因变量进行单因素Logistic回归分析(P<0.25筛选变量),进一步采用LASSO回归进行特征筛选,并基于筛选特征构建8种机器学习模型(KNN、SVM、RF、XGBoost、GBTR、LightGBM、TabNet、TabPFN)。通过准确率(Accuracy)、平均准确率(mPA)、精确率(Precision)、召回率(Recall)及F1-score评价模型性能,并结合ROC曲线、PR曲线、决策曲线分析、校准曲线及临床影响曲线进行综合评估。采用五折交叉验证评估模型稳定性,并利用SHAP方法解释模型。
共筛选出11个关键特征纳入模型构建,包括诊断年龄、疲乏、干咳、雷诺现象、IgM、IgG、ESR、类风湿因子、抗SSA抗体、抗Ro-52抗体及舌瘀斑。其中,干咳(OR=4.122)及舌瘀斑(OR=4.183)为主要危险因素,而红细胞计数、白蛋白、PNI及血红蛋白为保护因素。模型比较结果显示,TabPFN模型表现最佳,其Accuracy为0.80,Precision为0.65,AUC为0.761,AP为0.462。DCA显示在0.2–0.4阈值范围内具有最高净收益,且在较高阈值下仍保持良好性能。五折交叉验证结果显示平均AUC为0.769±0.055,提示模型具有良好的稳定性与泛化能力。SHAP分析表明,干咳、ESR、舌瘀斑、雷诺现象及抗SSA抗体对模型预测贡献较大。
本研究构建的基于常规临床指标的可解释机器学习模型在预测SjD患者合并ILD风险方面具有良好的判别能力与临床应用价值。该模型有助于实现高风险人群的早期识别与精准分层,为临床筛查与干预决策提供支持。未来仍需通过多中心及前瞻性研究进一步验证其泛化能力。
