TRELLIS.2:微软开源图生 3D 模型
微软开源了 TRELLIS.2 模型,这是一个基于单张图片生成带纹理与 PBR 材质的 3D 模型的工具。它采用 4B 参数的 Transformer 架构和 O-Voxel 稀疏体素表示,支持高分辨率快速生成。
在计算机视觉与生成式 AI 领域,从单张图片高效生成高质量 3D 模型一直是一个关键挑战。传统方法往往在复杂拓扑结构、纹理细节和生成速度上存在局限。近期,微软开源了 TRELLIS.2 模型,为这一方向提供了新的解决方案。
核心内容
TRELLIS.2 是一个开源的图生 3D 模型,采用 MIT 许可。其核心架构基于一个拥有 40 亿参数的 Transformer,并采用了 flow-matching 技术。模型引入了一种名为 O-Voxel 的稀疏体素表示方法,专门用于处理复杂的几何拓扑,例如开放的表面、非流形结构或内部细节,这使其能够更准确地捕捉物体的三维形态。
在性能方面,TRELLIS.2 支持最高 1536³ 的分辨率,能够在约 30 至 40 秒内从单张输入图片生成带有纹理和基于物理渲染材质的 3D 模型。用户可以通过其 GitHub 仓库获取代码与权重,或在 Hugging Face 的演示空间在线体验。
价值与影响
TRELLIS.2 的开源发布降低了高质量 3D 内容生成的技术门槛。其采用的 O-Voxel 表示和基于 Transformer 的大规模架构,为处理复杂 3D 结构提供了新的技术路径。快速的生成速度与高分辨率支持,使其在游戏开发、虚拟现实、数字孪生等需要快速原型构建的领域具有潜在应用价值。该模型的开放权重也便于社区进一步研究、改进与应用集成。
来源:黑洞资源笔记



