Chandra OCR 开源发布:功能、性能与对比
Chandra OCR 是一款开源文档解析工具,支持版面分析、手写体识别,兼容 transformers 和 vLLM,在基准测试中表现优异,但存在部分识别限制。

文档智能领域持续发展,对高精度、多功能 OCR 工具的需求日益增长。近期,Chandra OCR 作为一款开源工具正式发布,旨在提供强大的文档解析能力,并兼容主流的深度学习框架。
核心内容
Chandra OCR 的核心功能包括支持完整的版面信息解析,能够识别并标注文档中的图片、图表、手写体、表格和表单。在技术架构上,它兼容 transformers 和 vLLM,便于开发者集成与扩展。通过 Datalab API 调用时,提供了 balanced 和 accurate 两种模式供用户选择。
在性能方面,根据公开的 olmocr 基准测试结果,Chandra OCR 的准确率优于 Deepseek OCR。与另一款工具 Marker OCR 相比,Chandra 在处理复杂格式和整体排版方面表现更佳,但在处理速度上稍慢。该工具支持多语言识别,其能力基于 Surya 的语言支持,不过对部分低资源语言的效果仍有提升空间。
工具也存在一些已知限制,例如在纯数学公式识别上不及 Marker OCR,对旋转页面的识别准确度会下降,以及对部分低资源语言的支持效果欠佳。
价值与影响
Chandra OCR 的开源发布为文档处理领域提供了一个新的选择,其强调的版面分析与多格式识别能力,对于处理学术论文、报告、表单等复杂文档具有实用价值。其与 transformers 和 vLLM 的兼容性降低了集成门槛,有利于在现有 AI 流水线中快速部署。开发团队公布的未来计划,包括持续优化模型精度、提供量化与加速支持以提升推理速度,以及扩展语言和用例覆盖,表明该项目处于积极迭代中。这些特性共同构成了 Chandra OCR 在当前文档解析工具生态中的定位与潜力。
来源:黑洞资源笔记




