湖南省特发性炎性肌病住院费用预测模型构建：基于SHAP解释方法的机器学习

作者：谢晓炜

单位：中南大学湘雅二医院

摘要

构建湖南省特发性炎性肌病（Idiopathic Inflammatory Myopathies，IIM）住院费用预测模型，界定高额费用边界并揭示其关键驱动因素，分析临床变量间的复杂交互作用，为医疗机构精准控费提供科学依据。

提取湖南省某大型综合三甲医院2020年1月至2024年12月的1,711例住院患者数据。采用K-means聚类算法客观界定高额费用阈值，并按7∶3的比例随机划分训练集和测试集。构建逻辑回归（Logistic Regression，LR）、支持向量（Support Vector Machine，SVM）、随机森林（Random Forest，RF）以及极端梯度提升树（XGBoost）四种预测模型。根据准确率（Accuracy）、精确率（Precision）、召回率（Recall/Sensitivity）、F1-score以及ROC曲线下面积（AUC）等模型评价指标选择最优模型，并引入SHAP解释框架对最优模型进行全局及局部特征归因分析。

（1）住院费用演变与结构特征： IIM次均住院费用受疫情及DRG改革叠加影响，呈现“倒U型”轨迹，于2022年达到峰值22,915.31元后，至2024年显著降至17,898.69元。结构变动度分析显示，材料费的大幅度收缩是控费的核心驱动力（结构变动贡献率为31.57%），而西药费占比不仅未随政策改革下降，反而呈持续增长态势（CSV为27.37%，占比升至30.75%），反映出该病种对治疗药物的长期及刚性需求。（2）高额费用界定： IIM高额住院费用起始边界被客观界定为47,893.84元。该高额费用组仅占总样本人数的6.88%，但其累计消耗的医疗资金占住院总支出的37.54%，呈现显著的帕累托分布特征。（3）模型性能对比：在独立测试集盲测中，传统LR模型由于严重类别不平衡出现“准确度悖论”（其召回率与F1-score均为0）。其它机器学习模型表现如下：SVM的 AUC为 0.8232，召回率为 0.6129，精确率为 0.1900，F1-score为 0.2901 。RF的 AUC为 0.7650，召回率为 0.3226，精确率为 0.2273，F1-score 为0.2667 。

XGBoost的指标评价最优，其 AUC 为0.8141，召回率为 0.5172，精确率为0.2083，F1-score 为0.2970。该模型在捕捉高危人群的同时有效控制了假阳性率，实现了风险防范与干预成本的最佳平衡。（4）SHAP特征归因与交互作用：驱动高额费用的前三位核心独立变量依次为住院天数（贡献度40.52%）、共病数量（12.17%）及年龄（8.45%）。交互分析显示，住院天数与共病数量对费用的推高呈典型的非线性阶梯式增长；Apriori关联规则进一步证实，“女性 + 高龄(≥61岁) + 极端多共病(13-15种) + 极长住院日(≥26天)”是诱发极端支出的强关联特征组合，其风险提升度达14.53倍。

本研究构建的XGBoost-SHAP预测模型对IIM高额住院费用具有良好的判别效能与临床解释性。通过在入院早期识别高危患者并实施事前精准预警与前置多学科诊疗（MDT），有助于医疗机构防范医保超支风险，优化特发性炎性肌病的资源配置路径。

关键词：特发性炎性肌病；住院费用；SHAP解释方法；支持向量机；随机森林；极端梯度提升树；预测模型

来源：中华医学会第二十八次风湿病学学术会议