摘要
鉴定可预测间质性肺病(ILD)发病的血浆蛋白质生物标志物,并构建长期风险预测模型。
我们分析了英国生物银行中54,306名基线时无ILD的参与者,检测了2,923种血浆蛋白质。采用多变量Cox比例风险模型识别与新发ILD相关的蛋白质。在LightGBM框架内,使用LASSO和顺序前向选择法对预测变量进行筛选。使用受试者工作特征曲线下面积(AUC)评估模型在5年、10年及总体风险预测中的区分度,并使用SHAP评估模型可解释性。利用来自人类特发性肺纤维化(IPF)肺组织的单细胞转录组数据,推断关键生物标志物的细胞来源。
在平均14.4年的随访期内,共发生814例ILD。总计有277种蛋白质与新发ILD相关,并且在免疫激活和细胞因子信号通路中富集。其中五种蛋白质(GDF15、LAMP3、SFTPD、EDA2R和WFDC2)是主要预测因子,其中GDF15、LAMP3、SFTPD和WFDC2的水平变化在临床发病前十余年即可检测到。结缔组织病相关间质性肺病(CTD-ILD)显示出独特的炎症性蛋白质组学特征(例如,CXCL13、CCL7、PDCD1、TNFRSF4)。结合这五种蛋白质与临床变量的模型具有强大的区分能力(5年风险AUC为0.938,10年风险AUC为0.908)。单细胞分析表明,这些生物标志物主要来源于功能失调的肺泡和气道上皮细胞。
血浆蛋白质组学可在ILD诊断前长达10年预测其发生,与临床数据整合有助于实现可解释的早期筛查和风险分层。
