Gemma 4 长程逻辑推理能力测试观察

2026年04月08日TechFoco 精选

一项针对 Gemma 4 的维吉尼亚密码破解测试显示，该模型在明确指令下可进行长时间深度推理，并在无法解决时选择诚实拒绝而非编造答案，其思维深度具有可调节特性。测试也引发了关于如何更全面评估模型原生推理能力与效率的讨论。

近期，社区进行了一项针对 Gemma 4 大语言模型的纯逻辑推理能力测试。测试者未提供任何外部工具支持，旨在探究模型在孤立环境下的原生推理表现。测试任务为破解一段来自 1960 年代杂志的加密信息，其核心在于评估模型处理复杂、长链条逻辑问题的能力。

核心内容

测试过程揭示了 Gemma 4 的几个关键行为特征。起初，模型在尝试破解未果后，像许多模型一样开始产生不准确的输出。然而，当提示词被修改，明确要求其“不计代价去解决它”并“把思维长度调到最大”后，Gemma 4 的 31B 版本进行了长达近十分钟的深度推理。尽管最终未能成功破解，但模型选择主动停止并声明“如果不解决异常点，任何翻译都只是幻觉”，表现出在逻辑死胡同面前拒绝制造幻觉的诚实度。

分析指出，Gemma 4 的思维预算似乎是“可调节”的。在日常对话中，它响应轻快；仅当接收到明确的深度思考指令时，才会切换到高能耗的深度推理模式。此外，测试表明模型的逻辑引擎本身是通畅的：当给予“这是维吉尼亚密码且密钥只有 3 位”的关键提示后，它能迅速完成破译。这说明其在缺乏初始搜索空间引导时面临困难，但逻辑推理路径本身是有效的。

价值与影响

这项测试引发了关于如何评估大语言模型智能的进一步思考。当前，基准测试通常只关注最终答案的准确率，而忽略了模型为达成结果所耗费的“思考时间”或计算资源。这就引出了一个效率与能力的权衡问题：一个能达到 100% 准确率但需要 20 分钟思考的模型，与一个达到 98% 准确率但仅需 3 分钟的模型，孰优孰劣？

该实验凸显了评估模型“原生推理能力”的价值，即在没有工具辅助的情况下，模型处理逻辑断裂和进行长程思考的潜力。这促使业界反思，更全面的评估框架可能需要同时考量推理结果的准确性、达成结果所需的资源消耗以及模型在无法解决问题时的行为诚实性，从而更深入地理解不同模型智能的本质差异。

来源：黑洞资源笔记