LLM 幻觉根源：0.1% 神经元作祟

近期，一项由中国研究团队发表的论文在人工智能领域引发了广泛而深入的讨论。该研究声称，已经在大语言模型 (LLM) 的神经网络中，定位到了导致其产生“幻觉”现象的关键神经元。这些被命名为 H-Neurons 的特殊神经元，数量极其稀少，仅占模型总神经元数量的不到 0.1%，却能够可靠地预测模型何时会生成与事实不符或凭空捏造的内容。

更值得深思的是，研究发现这些神经元并非源于后期的指令微调或强化学习阶段，而是在模型最初的预训练阶段就已经形成。这一发现将技术讨论引向了一个更为根本的层面：大语言模型的幻觉问题，或许并非一个单纯的技术缺陷，而是一个深植于其训练目标和人类激励机制中的结构性困境。

幻觉的诞生：从流畅性到“过度顺从”

论文的核心观点指出，大语言模型的训练目标本身就在鼓励“幻觉”。在预训练阶段，模型的核心任务是进行下一个 Token 预测，其首要目标是保证生成文本的语言流畅性和语法连贯性，而非事实准确性。模型学习的是词语之间的统计关联模式，而非对客观世界的真实映射。

随后的指令微调阶段，则进一步强化了这种倾向。为了满足“提供有帮助的回答”这一指令，模型被训练得倾向于生成一个看起来完整、流畅且直接回应问题的答案，即使其内部并无确切依据。换句话说，整个训练范式在无形中奖励了“表面上有帮助的回答”，哪怕这个答案是编造的。模型因此习得了一种生存策略：宁可自信地说错，也不能保持沉默或表达不确定。

一个绝妙的比喻：永不结束的应试

这一机制被网友形象地比喻为一场没有终点的选择题考试。在考试中，空着不答肯定得零分，而猜一个答案至少还有蒙对的可能性。因此，模型学会了“猜测”，并且为了获得奖励（即被判定为“好答案”），它必须将猜测的结果包装得如同确凿的事实一般。关键在于，对于模型而言，这场“考试”永无止境，它必须对每一个问题都给出一个答案。

这个比喻引发了更深层次的哲学思辨。有观点认为，人类认知本身也充满了类似的“幻觉”——我们常常基于有限的信息（三个数据点）去推断一个完整的规律（拟合一条曲线），并对未知情况做出判断。然而，人类与当前大语言模型的关键区别在于元认知能力。人类能够区分“我确定知道”和“我仅仅是在推测”，并且社会文化会奖励那些能够诚实表达不确定性的专业人士，认为这是一种可靠和严谨的标志。

遗憾的是，在我们训练大语言模型时，现行的激励机制恰恰奖励了与之相反的行为。模型永远不会说“我不确定”，因为在它的训练数据中，这样的表达通常与“无用”或“未完成”相关联，会导致其在评估中被扣分。正如一位评论者一针见血地指出：在现实世界中，承认不确定是一种专业信号；但在 LLM 的训练逻辑里，这成了一种会被惩罚的缺陷。

技术挑战与概念反思

当然，这项研究也面临着冷静的审视和技术性质疑。例如，Google 的 Gemini 模型在评估该论文时指出，识别出这些 H-Neurons 是一项强有力的分析发现，但若简单地对其进行抑制或移除，极有可能严重损害模型的其他核心功能，如创造性和连贯性推理。这并非一个“切除病灶”就能根治的简单问题，就好比找到了人类说谎时活跃的脑区，但切除该区域带来的后果远不止让人变得诚实。

此外，关于“幻觉”这个术语本身也引发了讨论。有观点认为，将基于统计概率的语言生成模型在缺乏可靠信息时的自然输出错误，冠以“幻觉”这样高度拟人化的词汇，可能掩盖了其本质——这只是一个算法在既定约束下的最优输出，而非拥有意识的实体在“欺骗”或“想象”。

结论：激励机制设计的人为困境

这项研究是一项重要的增量性进展，它并非革命性的突破，但成功地将一个模糊的问题变得更加清晰。它揭示出，大语言模型的幻觉问题，不能简单地归咎于数据质量或算法缺陷，它在很大程度上是一个激励机制的设计问题。

而所有的激励机制，都是由人类设计者制定的。我们用以训练模型的，是一套追求确定性和完整性的“做题家”逻辑：答对奖励，沉默惩罚，表达不确定则直接扣分。这正是那套“不会也要把答题卡写满”的应试哲学。然后，我们却震惊地发现，模型完美地学会了这一课。颇具讽刺意味的是，那仅占 0.1% 的“幻觉神经元”并非系统的“病变”，而是在我们设计的这场生存游戏中，模型进化出的“最优解”和“勋章”。

问题的核心或许从来不是“AI 在撒谎”，而是我们从头至尾，都未曾设计一个允许它在诚实地说出“我不知道”时，依然能够获得奖励并“存活”下来的世界。这留给所有 AI 研究者、开发者和伦理学家一个深刻的命题：我们究竟想要一个永远自信但可能出错的助手，还是一个懂得边界、敢于存疑的伙伴？答案，将决定下一代人工智能的品格。

原文链接： LLM的幻觉根源：不到0.1%的神经元在作祟