谷歌 Aletheia 模型:IMO 满分背后的数学 AI 新范式
谷歌低调发布数学专用模型 Aletheia,在国际数学奥林匹克竞赛基准测试中获得 91.9% 的高分。该模型展现出跨领域建立联系的数学发现能力,但其作为高成本智能体系统,目前并未向公众开放,引发了关于前沿 AI 能...
TechFoco

共 4 篇文章,按时间倒序展示。
谷歌低调发布数学专用模型 Aletheia,在国际数学奥林匹克竞赛基准测试中获得 91.9% 的高分。该模型展现出跨领域建立联系的数学发现能力,但其作为高成本智能体系统,目前并未向公众开放,引发了关于前沿 AI 能...

FullFront 是一个针对多模态大语言模型的前端工程基准测试平台,覆盖设计、理解与代码生成三大核心任务,并提供包含图像渲染与多维度指标分析的自动化评估流水线。

Ai2 Paper Finder 是一个由大语言模型驱动的文献搜索系统,通过模拟多步骤迭代搜索流程来覆盖长尾论文,并提供相关性评估与摘要,在 LitSearch 基准测试中表现优异。

Omni OCR Benchmark 是一个开源基准测试工具,旨在系统评估多模态模型在 OCR 和数据提取任务上的性能。它支持主流模型,并提供 JSON 准确率与文本相似度等关键指标。
