olmOCR:开源高吞吐量文档转换工具
olmOCR 是一款开源工具,专注于将 PDF 等文档高吞吐量转换为纯文本,同时保持自然阅读顺序。它支持表格、公式和手写体等复杂内容,并采用独特提示技术以提高准确性。

第 30 页,共 40 页
olmOCR 是一款开源工具,专注于将 PDF 等文档高吞吐量转换为纯文本,同时保持自然阅读顺序。它支持表格、公式和手写体等复杂内容,并采用独特提示技术以提高准确性。

Omni OCR Benchmark 是一个开源基准测试工具,旨在系统评估多模态模型在 OCR 和数据提取任务上的性能。它支持主流模型,并提供 JSON 准确率与文本相似度等关键指标。



JavaScript Temporal API 旨在简化和现代化 Web 开发中的日期时间处理,克服了现有 Date 对象的限制,支持时区、可靠解析和多种日历系统。

Markdownify MCP 是一个支持将 PDF、音频、图片等多种文件类型以及 YouTube 视频、Bing 搜索结果等网页内容转换为 Markdown 格式的工具。

GitHub 上的 best-system-design-resources 仓库整合了超过 100 个系统设计面试问题、高评分在线课程推荐以及多份面试复习指南,旨在为开发者准备系统设计面试提供集中、全面的学习材料。

Puppeteer Real Browser 是一个开源项目,旨在通过模拟真实浏览器行为来增强 Puppeteer 的能力,帮助自动化脚本绕过 Cloudflare 等反爬虫系统的检测。
bRAG AI 在 GitHub 上开源了一个全面的 RAG 实践项目,通过系列 Jupyter Notebook 提供了从基础设置到高级功能(如多查询和自定义构建)的详细指南。

百川智能发布了首个专为医疗场景优化的开源大语言模型 Baichuan-M1-14B。该模型基于 20 万亿 token 高质量数据训练,医疗推理能力显著提升,并采用创新结构以优化长序列任务处理。


Wave Terminal 是一款开源、跨平台的终端工具,支持内联渲染 Markdown、CSV、JSON 及图像预览,并提供工作区、持久会话和通用历史记录等功能,旨在提升开发者的终端操作体验。

kotaemon 是一款开源 RAG 工具,支持多用户登录与文件组织,兼容 OpenAI、Azure 及本地模型等多种 LLM,并通过提供引用和预览功能来提升文档问答的准确性。

本文介绍了 Awesome-Multimodal-Chain-of-Thought 资源库,该库系统性地汇集了多模态思维链领域的前沿论文、代码库与技术范例,旨在为相关研究提供支持。

介绍一个基于 React 和 UIKit 构建的学术项目网页模板,支持 Markdown 和 KaTeX 公式渲染,通过简单的 template.yaml 配置即可自动部署至 GitHub Pages。

本文介绍一个专注于机器人学习与扩散模型结合的 GitHub 资源库,该库汇集了 40 多篇相关学术论文、代码和数据,涵盖操作、导航、规划等多种机器人任务。

本文基于 GitHub 与微软的研究,解析 GitHub Copilot 如何通过安全提示传输、上下文理解、代码生成与反馈循环等步骤辅助编程,并探讨其运用的机器学习技术。


Perplexity 宣布其 AI 研究工具 Deep Research 免费开放使用。该工具旨在提供带有真实来源引用的深度回答,主要面向金融、营销等专业领域,并计划扩展至移动端应用。

