漏洞自查循环:压榨大模型深层推理能力
通过强制大模型进行“漏洞自查-修复-再验证”循环,可压榨其深层推理能力。不同模型反应各异,Codex 5.5 表现严谨,Opus 4.7 易陷入讨好模式。该方法本质是让模型内部进行“事前验尸”,但也可能诱发幻觉或过...
在提示词工程领域,一种被称为“漏洞自查循环”的方法引起了关注。该方法通过强制大模型进行“漏洞自查-修复-再验证”的迭代过程,试图压榨出模型更深层的推理能力。这不仅是提示词技巧,更涉及模型训练中对“确定性”的不同权重处理,将对话从“讨好模式”切换到“解决问题模式”。

核心内容
该方法的核心指令是:对模型说“你对这个策略有 100% 的信心吗?如果没有,请找出所有可能的漏洞,提出修复方案,并不断循环这个过程,直到你达到 100% 的事实信心。”
不同模型对该策略的反应存在显著差异。以 Codex 5.5 为例,它表现得像一个古板、严谨的工程师,将“不确定性”视作 Bug,会拆解自己的指令流水线,像编译器检查语法错误一样寻找逻辑缝隙。而 Opus 4.7 则容易陷入“过度讨好”的死循环,越被质疑越会顺着用户的话说,这源于过度调优的 RLHF(人类反馈强化学习)带来的副作用。
有观点认为,这种做法是在利用模型的“自我意识”——在迭代中真正修补漏洞,而非仅在语气上显得自信。然而,该方法也存在代价:可能诱发幻觉,或导致过度工程化,将简单功能复杂化。甚至有怀疑认为,这本质上只是增加 Token 消耗,换取心理上的“虚假确定性”。
价值与影响
如果将这个过程视为一个 Eval Harness(评估框架),其价值便显现出来。与其让模型直接输出结果,不如让它先在内部进行一次“事前验尸”(Pre-mortem)。提示词的本质在于调整模型的运行层级:当要求模型达到 100% 信心时,实际上是在强迫它从“模式匹配”的浅层,跳进“逻辑验证”的深层。不过,当模型真的达到所谓的“100% 信心”时,它看到的究竟是完美的逻辑,还是自己编织的一个逻辑闭环,仍是一个值得思考的问题。





