您所在的位置:
原发性干燥综合征外周血 CD4+ T 细胞特异性分子诊断模型的构建
作者: 程月
单位: 重庆医科大学附属璧山医院

摘要

利用 GEO 公共数据库挖掘原发性干燥综合征(pSS)患者外周血单个核细胞(PBMC)的转录组数据,通过高维加权基因共表达网络分析(hdWGCNA)筛选 CD4+ T 细胞相关核心基因集,并构建高效可解释的分子诊断模型,为 pSS 的早期辅助诊断提供潜在生物标志物。

1.数据预处理与细胞注释:下载 GEO 数据库中 pSS 患者及健康对照的 PBMC 单细胞转录组数据,使用 Seurat 进行质量控制、标准化与降维聚类,依据经典标记基因注释得到 CD4+ T 细胞亚群。

2.核心基因筛选:对 CD4+ T 细胞进行 hdWGCNA 分析,构建共表达模块,选取核心候选基因集。

3.机器学习模型构建与验证:基于 GEO 数据库中pSS患者 CD4+ T 细胞的 bulk 表达数据,采用随机森林(RF)、LASSO 回归、XGBoost、支持向量机(SVM)、广义线性模型(GLM)、K 近邻(KNN)、神经网络(NNET)、决策树(DT)共 8 种算法构建诊断模型,通过 ROC 曲线、残差分析及特征重要性评估模型性能;结合 SHAP 分析对最优模型进行可解释性验证。

4.模型优化:通过 LASSO 回归正则化筛选最终核心基因,构建精简且稳健的 CD4+ T 细胞分子诊断模型。


1.单细胞分析:成功注释得到 CD4+ T 细胞亚群,hdWGCNA 分析识别出 9 个共表达模块,其中模块 9 包含 9 个 kME>0.6 的核心基因,提示其在 CD4+ T 细胞功能调控中具有潜在重要作用。

2.模型性能:8 种机器学习模型均表现出稳定的分类能力,其中 XGBoost 模型 AUC 达 0.966(95% CI: 0.922–1.000),SVM 与 DT 模型 AUC 分别为 0.767 和 0.750,整体性能优于其他算法;残差分析显示 SVM 模型预测结果最稳健,无明显过拟合。

3.特征重要性与模型构建: LASSO 回归构建的 CD4+ T 细胞分子诊断模型中包含TREML1、CMTM5、GP9三个核心贡献基因;SHAP 分析验证了pSS中 TREML1 为保护因素、GP9 为风险因素,与 LASSO 系数方向完全一致。


本研究通过单细胞转录组分析与多算法机器学习,成功构建了基于 CD4+ T 细胞核心基因的 pSS 分子诊断模型,验证了TREML1、CMTM5、GP9 等为关键生物标志物,为 pSS 的早期诊断和免疫机制研究提供了新的视角与工具。

关键词: 原发性干燥综合征,hdWGCNA,机器学习,CD4+ T 细胞,分子诊断模型
来源:中华医学会第二十八次风湿病学学术会议