Dedoc:自动解析与统一文档格式的开源库
Dedoc 是一个开源库,能够自动解析 PDF、DOCX、HTML 及扫描文档等多种格式,提取文档的逻辑结构与表格,并通过 REST API 提供便捷的系统集成能力。
TechFoco

共 2 篇文章,按时间倒序展示。
Dedoc 是一个开源库,能够自动解析 PDF、DOCX、HTML 及扫描文档等多种格式,提取文档的逻辑结构与表格,并通过 REST API 提供便捷的系统集成能力。

docext 是一款基于视觉语言模型的文档信息提取工具,无需依赖传统OCR技术即可从文档中提取结构化信息。它支持完全本地化部署、多页文档处理,并提供REST API接口以便集成。
