医学AI评估框架的方法学重构与路径探索

作者：岳梦超

单位：复旦大学

摘要

随着大语言模型（LLMs）在医学领域的快速发展，当前其性能评估仍主要依赖静态问答数据集及标准化基准测试。然而，此类评估范式难以体现真实临床决策的动态演化、多阶段推进及多主体交互特征，易导致模型“基准测试表现”与“真实临床价值”出现显著偏离。从临床流行病学与循证医学视角重构医学AI评估框架，已成为其临床转化中的关键方法学难题。

本研究旨在阐明当前医学AI评估体系在临床决策链条中的主要方法学局限，构建涵盖临床、公卫与人文维度的多维评估框架，探索基于真实临床场景的评估路径，为循证医学实践与医学AI临床转化提供方法学参考。

研究采用方法学分析与场景模拟相结合的设计：首先系统梳理当前主流静态评估方式，从外部效度、结局指标适配性及决策链完整性等临床流行病学维度剖析其局限；其次构建“数字临床环境”，模拟疾病进展、信息渐进披露、资源约束及临床工作流程，开展动态决策评估；进一步建立包含临床结局、系统效率与人文关怀的多维结局指标体系，对比6种主流大模型在传统基准测试与真实场景评估中的表现差异及决策路径特征。

结果显示，医学AI在静态基准测试中的表现无法稳定预测其真实临床决策质量，存在系统性高估现象。引入时间演化、资源约束与多角色交互后，模型在诊断延误、过度检查、决策一致性不足等方面的问题更为突出。不同模型在临床正确性与系统效率间呈现不同权衡关系，而人文维度上，各模型在患者沟通、价值权衡及患者中心性方面差异显著，且与传统准确性指标一致性较低。

结论指出，当前医学AI评估体系存在明确“评价鸿沟”，根源在于静态评估范式未充分覆盖真实临床决策的动态性、系统性与人文属性。基于“数字临床环境”的多维评估框架，可更全面识别医学AI的真实临床价值与潜在风险，为其循证评价、监管审查、指南制定及临床应用提供方法学支撑。未来应推动医学AI评价从“静态准确性导向”向“循证临床价值导向”转变。

关键词：医学人工智能；临床流行病学；循证医学；临床决策分析；真实世界证据；医疗质量评价；人文医学

来源：中华医学会第二十八次风湿病学学术会议