多模态AI 专题

共 3 篇文章，按时间倒序展示。

Nanonets-OCR2：开源图像转Markdown模型解析

Nanonets-OCR2是一款开源模型，可将图像文档智能转换为结构化的Markdown格式。它不仅能提取文本，还能精准识别LaTeX公式、复杂表格、图表、签名水印等多种元素，并支持多语言、手写文档及视觉问答功能。

2025年10月17日TechFoco

LangChain 发布的多模态研究工具，可根据主题和 YouTube 链接，集成视频分析与网络搜索，自动生成带引用的研究报告和对话式多角色播客。

2025年07月05日TechFoco

本文介绍由 OpenAI 研究科学家 William 开源的提示词工具 ell。该工具将提示词视为程序和模型参数，提供版本控制、监控、可视化及多模态支持，旨在优化和管理 AI 模型的提示工程。

2024年09月18日TechFoco