提示词重复:一种简单有效的大语言模型性能提升技巧
Google Research 研究发现,在不启用推理模式时,将提示词原样重复一遍可显著提升大语言模型在多项基准测试中的表现,且几乎不增加计算成本。

在追求复杂提示工程技巧以优化大语言模型性能的当下,Google Research 的一项最新研究揭示了一个简单到令人意外的发现:在不启用推理模式时,将提示词原封不动地重复一遍,就能显著提升模型在多项任务上的表现。这项研究挑战了我们对提示工程复杂度的固有认知,并指向了 Transformer 架构中注意力机制的一个潜在优化方向。
核心内容
该研究的核心原理基于大语言模型作为因果语言模型的本质。在标准的自回归生成过程中,每个 token 只能“看到”它前面的内容,这种单向注意力机制可能导致模型对完整上下文的理解存在局限。例如,“先给背景,再提问题”与“先提问题,再给背景”两种提示顺序,模型的处理深度可能不同。重复提示词相当于为序列中靠后的 token 提供了第二次“看到”完整上下文的机会,从而弥补了单向注意力的先天缺陷。
研究团队在 Gemini、GPT、Claude、Deepseek 等七个主流模型上进行了广泛测试,覆盖了 ARC、GSM8K、MMLU-Pro 等多个基准数据集。实验结果相当显著:在总计 70 组测试中,采用提示词重复的方法取得了 47 次胜利,且没有一次表现比基线更差。
该方法的一个关键优势在于其极低的实现成本。重复操作发生在可并行化的预填充阶段,因此不会增加实际生成过程中的 token 数量,也不会引入额外的推理延迟。模型的输出格式保持不变,使得该技巧可以无缝集成到现有系统中。
研究还进行了深入的机制探讨和变体测试。一个有趣的观察是,那些经过强化学习训练的、具备推理能力的模型,往往会自发地在内部思考过程中重复用户的问题。提示词重复技术本质上是将这个“好习惯”前置到了输入阶段,以一种更高效、计算成本更低的方式实现了类似的效果。
此外,研究测试了包括重复三次在内的几种变体,发现在某些任务上重复多次可能带来进一步的性能提升。作为对照,单纯用句号等无意义字符填充到相同输入长度的做法则毫无作用,这证明了性能提升确实源于语义内容的重复,而非简单的序列长度变化。
值得注意的是,当用户主动启用“逐步思考”等推理模式时,提示词重复的效果会变得中性甚至略微正面。这是因为推理过程本身通常就包含了对问题的复述和分析,此时输入阶段的重复所带来的边际效益减小。
价值与影响
这项研究为提示工程领域提供了一个极具实用价值的零成本优化策略。它提示我们,在追求复杂技巧之前,不妨先尝试这种简单的方法。对于那些对延迟极其敏感、不适合开启完整推理模式的在线服务或边缘计算场景,将提示词重复作为默认的预处理步骤,可能是一个高性价比的选择。
从更宏观的视角看,这个看似简单的发现具有更深层的意义。它促使研究者重新审视 Transformer 注意力机制在处理长序列和复杂指令时的行为模式。论文中列举的十几个未来研究方向,例如只重复关键部分提示词、利用小模型对重复内容进行重排序、探索在多轮对话中的应用等,表明这一发现可能成为理解并改进大语言模型推理能力的一个新切入点。这项研究证明,有时最有效的解决方案就隐藏在基础原理的巧妙应用之中。
来源:黑洞资源笔记





