GLM-OCR:整合全流程的文档理解开源工具
GLM-OCR 将 OCR 全流程整合为单一工具,提供从布局分析到文本识别的完整文档理解方案。在 OmniDocBench V1.5 基准测试中得分 94.62,排名第一。支持复杂表格、公式、代码识别,仅 0.9B...
TechFoco

共 5 篇文章,按时间倒序展示。
GLM-OCR 将 OCR 全流程整合为单一工具,提供从布局分析到文本识别的完整文档理解方案。在 OmniDocBench V1.5 基准测试中得分 94.62,排名第一。支持复杂表格、公式、代码识别,仅 0.9B...

DeepScientist 是一个本地优先的 AI 研究工作室,旨在通过自动化处理文献、环境配置、实验管理和论文写作等重复性任务,帮助研究人员提升科研效率,专注于核心探索。

OpenSouls 是一个开源的灵魂引擎框架,旨在通过函数式工作记忆和认知步骤模拟人类思维,构建具备自主性的 AI 代理。它支持多模型集成与本地部署,适用于游戏、教育等多种场景。

docext 是一款基于视觉语言模型的文档信息提取工具,无需依赖传统OCR技术即可从文档中提取结构化信息。它支持完全本地化部署、多页文档处理,并提供REST API接口以便集成。
