Computer Vision 专题

共 4 篇文章，按时间倒序展示。

OpenPhone：开源的移动端视觉-语言基础模型

OpenPhone 是一个开源的 3 亿参数移动端视觉-语言基础模型，完全在手机本地运行，无需云调用，旨在解决 AI 手机应用的隐私、延迟和成本问题。

2025年12月27日TechFoco

Open-AutoGLM 是一个开源手机智能助理框架，通过视觉语言模型理解屏幕内容，结合 ADB 用自然语言指令自动化操作安卓应用，支持 50 余款主流应用和远程调试。

2025年12月27日TechFoco

微软开源了 TRELLIS.2 模型，这是一个基于单张图片生成带纹理与 PBR 材质的 3D 模型的工具。它采用 4B 参数的 Transformer 架构和 O-Voxel 稀疏体素表示，支持高分辨率快速生成。

2025年12月27日TechFoco

DeepOCR 是由爱荷华州立大学和普林斯顿大学发起的开源项目，旨在提供完整的代码以复现 DeepSeek-OCR 的训练与评估流程，而不仅仅是权重和报告。

2025年11月09日TechFoco