医疗AI新难题:LLM临床决策不稳定性
一项研究测试了6款医疗相关大型语言模型,发现其在临床决策中存在严重不稳定性,包括答案不一致和缺乏追问能力。研究指出,LLM更适合辅助提供选项框架,而非做出最终判断。
TechFoco

共 2 篇文章,按时间倒序展示。
一项研究测试了6款医疗相关大型语言模型,发现其在临床决策中存在严重不稳定性,包括答案不一致和缺乏追问能力。研究指出,LLM更适合辅助提供选项框架,而非做出最终判断。

谷歌研究团队开发的AMIE是一个研究型AI系统,旨在进行医学诊断推理与对话。在一项虚拟临床考试中,其表现优于初级保健医生,但该系统目前仍是研究原型,距离临床应用尚需大量验证。
