OpenPhone:开源的移动端视觉-语言基础模型
OpenPhone 是一个开源的 3 亿参数移动端视觉-语言基础模型,完全在手机本地运行,无需云调用,旨在解决 AI 手机应用的隐私、延迟和成本问题。
TechFoco
共 4 篇文章,按时间倒序展示。
OpenPhone 是一个开源的 3 亿参数移动端视觉-语言基础模型,完全在手机本地运行,无需云调用,旨在解决 AI 手机应用的隐私、延迟和成本问题。
Open-AutoGLM 是一个开源手机智能助理框架,通过视觉语言模型理解屏幕内容,结合 ADB 用自然语言指令自动化操作安卓应用,支持 50 余款主流应用和远程调试。

微软开源了 TRELLIS.2 模型,这是一个基于单张图片生成带纹理与 PBR 材质的 3D 模型的工具。它采用 4B 参数的 Transformer 架构和 O-Voxel 稀疏体素表示,支持高分辨率快速生成。
DeepOCR 是由爱荷华州立大学和普林斯顿大学发起的开源项目,旨在提供完整的代码以复现 DeepSeek-OCR 的训练与评估流程,而不仅仅是权重和报告。
