医疗 AI 临床决策稳定性挑战

近期一项研究揭示，大型语言模型在医院临床决策中表现出显著的不稳定性，这为医疗 AI 的应用带来了新的难题。该研究对六款医疗相关模型进行了系统性测试，针对四个常见住院病例反复提问，结果显示不同模型对同一问题可能给出截然不同的建议。例如，在血液稀释剂使用决策中，约百分之五十的模型建议立即重新用药，而另外百分之五十则倾向于延迟观察。这种分歧凸显了模型之间缺乏一致性，进一步影响了其在临床环境中的可靠性。

同一模型在多次回答中的一致性仅约为百分之六十，意味着其输出结果可能出现反复翻转。绝大多数模型未能主动追问缺失的医疗信息，导致微小的措辞差异即可引发治疗方案的分歧。此外，不同模型在风险评估上各有侧重，有的关注出血风险，有的则更担忧肾损伤或早期出院后的潜在后果。值得注意的是，没有任何两款模型能在所有测试案例中保持答案一致，这暴露了当前医疗 AI 系统的局限性。

研究强调，大型语言模型更适合辅助构建框架选项，而非直接做出最终临床判断。临床医生在实际应用中应进行多模型对比，并通过反复提问来验证结果，同时始终承担最终决策责任。专家们在评论中普遍认为，这反映了当前模型训练和架构的固有局限，尤其是通用型大型语言模型缺乏专门的医疗数据训练。医学决策本身带有不确定性，医生在复杂病例中也会反复权衡和调整方案，因此 AI 的不稳定性并非完全意外。

提升 AI 稳定性必须依赖更精准的训练方法、外部数据支持如检索增强生成技术，以及可审计的推理过程。研究虽然诊断了变异性的存在，但如何有效管理和利用这种变异性，才是未来面临的核心挑战。在当前阶段，AI 绝非临床决策的替代品，而应被视为辅助工具，帮助医生拓宽思路并提供参考。

医疗 AI 正处于探索期，它能够提出有价值的诊疗思路，但远未达到可完全信赖的成熟度。未来需要通过更多专门训练、严谨验证以及人机协同设计，来切实提升临床安全与治疗效果。随着技术的演进，我们期待看到更稳定、可靠的 AI 系统融入医疗实践，为患者 care 带来实质性改善。

原文链接： 医疗AI又曝新难题：大型语言模型（LLMs）在医院临床决策中表现出严重不稳定性