GLM-OCR:整合全流程的文档理解开源工具
GLM-OCR 将 OCR 全流程整合为单一工具,提供从布局分析到文本识别的完整文档理解方案。在 OmniDocBench V1.5 基准测试中得分 94.62,排名第一。支持复杂表格、公式、代码识别,仅 0.9B...
TechFoco

共 4 篇文章,按时间倒序展示。
GLM-OCR 将 OCR 全流程整合为单一工具,提供从布局分析到文本识别的完整文档理解方案。在 OmniDocBench V1.5 基准测试中得分 94.62,排名第一。支持复杂表格、公式、代码识别,仅 0.9B...

FullFront 是一个针对多模态大语言模型的前端工程基准测试平台,覆盖设计、理解与代码生成三大核心任务,并提供包含图像渲染与多维度指标分析的自动化评估流水线。

本文介绍由 Docling 团队开发的 SmolDocling-256M-preview 模型。该模型专为文档转换设计,支持全页内容识别与快速推理,并能与 Docling 生态系统兼容。

Omni OCR Benchmark 是一个开源基准测试工具,旨在系统评估多模态模型在 OCR 和数据提取任务上的性能。它支持主流模型,并提供 JSON 准确率与文本相似度等关键指标。
