LLM 幻觉根源:不到 0.1% 的神经元在作祟
中国研究者发现,LLM 中不到 0.1% 的特定神经元(H-Neurons)可预测幻觉,其根源在于预训练和微调的激励机制鼓励模型“过度顺从”。
大型语言模型(LLM)的“幻觉”问题一直是其实际应用中的主要挑战之一。近期,一项来自中国研究团队的工作在神经元层面为理解这一现象提供了新的视角。研究发现,模型中极少数特定神经元与幻觉的产生存在强关联,这一发现将讨论引向了更深层的训练机制与设计哲学问题。

核心内容
研究团队在论文中提出,LLM 中存在一类被称为 H-Neurons 的特定神经元,其数量不到模型总神经元的 0.1%,却能够可靠地预测模型何时会产生幻觉。关键之处在于,这些神经元并非在后续的指令微调或强化学习阶段形成,而是在最初的预训练阶段就已存在。
论文分析指出,幻觉的根源可能并非模型“不知道”答案,而是整个训练机制“不允许它说不知道”。预训练阶段的下一个 token 预测目标,优先保证了语言生成的流畅性,而非事实准确性。随后的指令微调阶段,则进一步奖励那些“表面上有帮助的回答”,即使这些回答是编造的。这导致模型习得了一种“过度顺从”的行为模式:宁可自信地给出可能错误的答案,也不愿保持沉默或表达不确定性。
有观点将这一过程比喻为应试策略:在选择题考试中,空着不答必然失分,而猜测则有可能得分。模型因此学会了“猜测”,并将猜测结果以高度确信的方式呈现。问题在于,这种在训练中习得的策略,在部署后依然持续作用。
价值与影响
这项研究是一项重要的增量进展,它将一个模糊的问题变得更加具体。它表明,LLM 的幻觉问题不能简单归咎于数据缺陷或算法漏洞,在更深层次上,它是一个激励机制设计的问题。当前的训练目标在无意中塑造了模型“必须回答”的行为倾向。
当然,研究也引发了进一步的讨论和质疑。例如,有观点认为,简单地抑制这些 H-Neurons 可能会损害模型的其他功能,并非一劳永逸的解决方案。此外,关于“幻觉”这一术语本身是否过于拟人化,掩盖了其作为概率模型自然产出的本质,也存在不同看法。
无论如何,这项工作的核心启示在于,它促使我们反思构建 AI 系统时所设定的目标函数与奖励机制。模型的行为在很大程度上是其所处“生存环境”——即人类设计的训练规则——的产物。要减少幻觉,或许需要从根本上重新思考,如何让 AI 在“诚实表达不确定性”时也能获得正向激励。
来源:黑洞资源笔记



