基准测试专题

共 5 篇文章，按时间倒序展示。

Gemma 4 长程逻辑推理能力测试观察

一项针对 Gemma 4 的维吉尼亚密码破解测试显示，该模型在明确指令下可进行长时间深度推理，并在无法解决时选择诚实拒绝而非编造答案，其思维深度具有可调节特性。测试也引发了关于如何更全面评估模型原生推理能力与效率的讨论。

2026年04月08日TechFoco

谷歌低调发布数学专用模型 Aletheia，在国际数学奥林匹克竞赛基准测试中获得 91.9% 的高分。该模型展现出跨领域建立联系的数学发现能力，但其作为高成本智能体系统，目前并未向公众开放，引发了关于前沿 AI 能...

2026年02月22日TechFoco

FullFront 是一个针对多模态大语言模型的前端工程基准测试平台，覆盖设计、理解与代码生成三大核心任务，并提供包含图像渲染与多维度指标分析的自动化评估流水线。

2025年08月14日TechFoco

Ai2 Paper Finder 是一个由大语言模型驱动的文献搜索系统，通过模拟多步骤迭代搜索流程来覆盖长尾论文，并提供相关性评估与摘要，在 LitSearch 基准测试中表现优异。

2025年03月28日TechFoco

Omni OCR Benchmark 是一个开源基准测试工具，旨在系统评估多模态模型在 OCR 和数据提取任务上的性能。它支持主流模型，并提供 JSON 准确率与文本相似度等关键指标。

2025年02月26日TechFoco