Chandra OCR 开源发布：功能、性能与对比

开篇背景

文档智能领域持续发展，对高精度、多功能 OCR 工具的需求日益增长。近期，Chandra OCR 作为一款开源工具正式发布，旨在提供强大的文档解析能力，并兼容主流的深度学习框架。

核心内容

Chandra OCR 的核心功能包括支持完整的版面信息解析，能够识别并标注文档中的图片、图表、手写体、表格和表单。在技术架构上，它兼容 transformers 和 vLLM，便于开发者集成与扩展。通过 Datalab API 调用时，提供了 balanced 和 accurate 两种模式供用户选择。

在性能方面，根据公开的 olmocr 基准测试结果，Chandra OCR 的准确率优于 Deepseek OCR。与另一款工具 Marker OCR 相比，Chandra 在处理复杂格式和整体排版方面表现更佳，但在处理速度上稍慢。该工具支持多语言识别，其能力基于 Surya 的语言支持，不过对部分低资源语言的效果仍有提升空间。

工具也存在一些已知限制，例如在纯数学公式识别上不及 Marker OCR，对旋转页面的识别准确度会下降，以及对部分低资源语言的支持效果欠佳。

价值与影响

Chandra OCR 的开源发布为文档处理领域提供了一个新的选择，其强调的版面分析与多格式识别能力，对于处理学术论文、报告、表单等复杂文档具有实用价值。其与 transformers 和 vLLM 的兼容性降低了集成门槛，有利于在现有 AI 流水线中快速部署。开发团队公布的未来计划，包括持续优化模型精度、提供量化与加速支持以提升推理速度，以及扩展语言和用例覆盖，表明该项目处于积极迭代中。这些特性共同构成了 Chandra OCR 在当前文档解析工具生态中的定位与潜力。