您所在的位置:
早期宫颈癌保留生育功能治疗后复发风险的可解释机器学习预测模型的开发与验证
作者: 陈新丽
单位: 山东大学齐鲁医院

摘要

宫颈癌在全球公共卫生领域中依然是亟待应对的重要挑战。近年来,中国宫颈癌发病呈现年轻化趋势,伴随生育政策调整,预计未来确诊患者中具有生育需求的人群比例将持续增加。宫颈癌保留生育功能治疗(fertility-sparing treatment,FST)在最大限度保留患者生育能力的同时,实现与根治性手术相当的肿瘤学安全性,并以尽可能低的早产风险获得健康的新生儿。据报道宫颈癌初始治疗后3至5年内的年平均复发率约为7%。然而,早期宫颈癌患者接受FST后复发风险的评估成为临床实践中亟待解决的问题。因此,建立评估早期宫颈癌患者接受FST后复发风险的可靠的预测指标体系,对于制定个体化治疗策略具有重要临床意义。本研究基于多种机器学习(ML)算法,对来自多中心的早期宫颈癌患者接受FST后复发的影响因素进行系统分析,精准识别与复发相关的关键变量,并构建具备可解释性的预测模型,以辅助临床医师及患者选择最优治疗方案,实施个性化治疗,从而降低宫颈癌患者接受FST后复发风险。

通过专家临床意见确定了早期宫颈癌FST后复发的22项影响因素,包括:人口统计学特征、生育史、手术史、临床症状及随访结局等。不平衡数据的重采样包括过采样、欠采样、SMOTE和ROSE,评估受试者工作特征曲线下面积(AUC)获取最优数据。首先,采用递归特征消除算法(Recursive Feature Elimination, RFE)进行变量筛选。具体包括:随机森林(RF)、支持向量机(SVM)、K近邻(KNN)及逻辑回归(LR),评估指标包括:准确度(Accuracy)、一致性检验(Kappa)及二者标准差。其次,采用森林之神(Boruta)对22项影响因素进行同步筛选,按影响因素的重要性进行可视化。上述5种ML方法的筛选交集为模型最优预测变量,并实现可视化解释。模型的开发和评估 采用15种ML算法构建预测模型,包括:RF、极端梯度提升树(XGBoost)、SVM、LR、KNN、偏最小二乘法判别分析(PLS-DA)、梯度提升机(GBM)、神经网络模型(NNET)、朴素贝叶斯(NB)、线性判别分析(LDA)、套索回归(LASSO)、自适应提升(AdaBoost.M1)、决策树(DT)、类别提升(CatBoost)、轻量级梯度提升(LightGBM),其中前13种进行5次重复的10折交叉验证,并获得最优超参数。CatBoost模型最大迭代次数为500次、学习率为0.05、每棵树的最大深度为6。LightGBM模型设置每棵树的最大叶子节点数为31、学习率为0.05、最大深度为6、每次迭代随机选择80%特征以增强泛化能力‌。模型的评估及外部验证的评价指标主要有混淆矩阵、Accuracy、灵敏度、特异度、Matthews相关系数和F1评分、AUC、决策曲线分析(DCA)及残差均方根值(RMSR)。基于SHAP方法构建模型解释器。本研究统计分析均采用R语言4.5.1版本完成。

过采样技术的重采样数据AUC最大。5种ML方法筛选的6项交集变量为FIGO2018分期、宫颈阴道重建方法、肿瘤直径、病理类型、HPV16及保留宫体支。在训练集中,各模型的AUC均大于0.75,其中决策树(DT)模型AUC最小为0.786(95%CI:0.760-0.813)。CATBoost模型的AUC为0.944(95%CI:0.919-0.968)。Delong检验显示其与DT模型相比,AUC差异有统计学意义(p<0.05)。CATBoost模型的准确度为0.829,灵敏度为0.795,特异度为0.863,最大有效阈值概率达到0.74,残差均方根值(RMSR)小于0.5。在验证集中,CATBoost模型的AUC最优,为0.899(95%CI:0.835 - 0.963),Bootstrap检验表明,CatBoost与自适应提升(AdaBoost.M1)及RF模型差异有统计学意义(p<0.05)。其准确度(0.851)和 F1 分数(0.870)在所有模型中最高。阴性预测值(NPV)接近 1,与 KNN并列最佳,优于其他13 个模型。临床净效益分析表明,CatBoost 的最大净效益为0.495,与全面干预策略相当。RMSR低于其残差中位数,与DT、线性判别分析(LDA)、KNN 及 LASSO 相似,表明其在外部验证集中预测早期宫颈癌患者接受FST后复发的稳定性更高。

本研究基于多种ML筛选预测变量并开发了一项具备可解释性的网络预测模型并完成网络部署后生成实用APP(链接:https://cnsdqlcsep.shinyapps.io/app3),能够根据输入的临床资料对早期宫颈癌患者接受FST后复发风险进行个体化预测,为临床医生能够主动制定更具针对性的个体化诊疗决策提供参考。

关键词: 早期宫颈癌;保留生育功能治疗;复发;机器学习;预测模型;可视化解释;APP
来源:中华医学会第十六次妇产科学学术会议