基于机器学习的干燥综合征相关间质性肺病预测模型构建

作者：解粲然

单位：中国中医科学院北京广安门医院

摘要

构建并验证基于常规临床及实验室指标的可解释机器学习模型，以实现对干燥综合征（Sjögren’s syndrome，SjD）患者合并间质性肺病（interstitial lung disease，ILD）风险的早期识别与分层评估。

采用横断面研究设计，纳入2023年6月1日至2025年12月31日于中国中医科学院广安门医院就诊的SjD患者645例，根据是否合并ILD分为SjD-ILD组（n=126）与SjD-nonILD组（n=519）。收集一般资料、免疫炎症指标、血常规、生化指标、自身抗体及临床症状等变量。以是否合并ILD为因变量进行单因素Logistic回归分析（P<0.25筛选变量），进一步采用LASSO回归进行特征筛选，并基于筛选特征构建8种机器学习模型（KNN、SVM、RF、XGBoost、GBTR、LightGBM、TabNet、TabPFN）。通过准确率（Accuracy）、平均准确率（mPA）、精确率（Precision）、召回率（Recall）及F1-score评价模型性能，并结合ROC曲线、PR曲线、决策曲线分析、校准曲线及临床影响曲线进行综合评估。采用五折交叉验证评估模型稳定性，并利用SHAP方法解释模型。

共筛选出11个关键特征纳入模型构建，包括诊断年龄、疲乏、干咳、雷诺现象、IgM、IgG、ESR、类风湿因子、抗SSA抗体、抗Ro-52抗体及舌瘀斑。其中，干咳（OR=4.122）及舌瘀斑（OR=4.183）为主要危险因素，而红细胞计数、白蛋白、PNI及血红蛋白为保护因素。模型比较结果显示，TabPFN模型表现最佳，其Accuracy为0.80，Precision为0.65，AUC为0.761，AP为0.462。DCA显示在0.2–0.4阈值范围内具有最高净收益，且在较高阈值下仍保持良好性能。五折交叉验证结果显示平均AUC为0.769±0.055，提示模型具有良好的稳定性与泛化能力。SHAP分析表明，干咳、ESR、舌瘀斑、雷诺现象及抗SSA抗体对模型预测贡献较大。

本研究构建的基于常规临床指标的可解释机器学习模型在预测SjD患者合并ILD风险方面具有良好的判别能力与临床应用价值。该模型有助于实现高风险人群的早期识别与精准分层，为临床筛查与干预决策提供支持。未来仍需通过多中心及前瞻性研究进一步验证其泛化能力。

关键词：干燥综合征；间质性肺病；可解释模型；机器学习

来源：中华医学会第二十八次风湿病学学术会议