在 3D 内容创作领域,高质量和高效率的生成模型一直是研究人员的关键目标。微软新开源的 TRELLIS.2 模型以其创新的技术架构和卓越的性能,为 3D 生成带来了突破性的进展。
什么是 TRELLIS.2?#
TRELLIS.2 是一个拥有 40 亿参数的大规模 3D 生成模型,专为高保真图像到 3D 的生成而设计。该模型的核心突破在于引入了一种名为"O-Voxel"的新型稀疏体素表示,从根本上改变了传统的 3D 生成工作流程。
关键技术特性#
🚀 出色的生成效率和质量#
TRELLIS.2 在生成速度和质量之间实现了完美的平衡:
| 分辨率 | 总时间 | 形状生成 | 材质生成 |
|---|---|---|---|
| 512³ | ~3 秒 | 2 秒 | 1 秒 |
| 1024³ | ~17 秒 | 10 秒 | 7 秒 |
| 1536³ | ~60 秒 | 35 秒 | 25 秒 |
在 NVIDIA H100 GPU 上测试
🔄 革命性的 O-Voxel 表示#
传统的等值面场表示在处理复杂结构时存在局限性,但 O-Voxel 技术突破了这些限制:
- 开放表面处理:完美处理非封闭结构,如服装和树叶
- 非流形几何体支持:处理复杂的拓扑结构,无需繁琐的转换
- 内部结构保留:完全保持内部封闭结构的细节
🎨 完整的 PBR 材质支持#
与仅生成基本颜色的模型不同,TRELLIS.2 支持完整的基于物理的渲染 (PBR) 材质:
- 基础颜色
- 粗糙度
- 金属度
- 不透明度
⚡ 极简的处理流程#
TRELLIS.2 优化了数据处理流程,实现近乎瞬时的转换:
- 纹理网格 → O-Voxel:<10 秒(单 CPU)
- O-Voxel → 纹理网格:<100 毫秒 (CUDA)
技术架构创新#
稀疏 3D VAE 编码#
该模型使用具有 16 倍空间下采样的稀疏 3D 变分自动编码器,将 3D 资产编码为紧凑的潜在空间,为后续生成奠定基础。
基于 DiT 的生成架构#
它采用标准的扩散 Transformer (DiT) 进行高效生成,展示了传统架构在新表示形式下的强大潜力。
应用前景#
TRELLIS.2 的技术突破为多个领域开辟了新的可能性:
- 游戏开发:快速生成高质量的 3D 资产
- 虚拟现实:实时创建沉浸式环境
- 工业设计:快速原型设计和可视化
- 电影制作:高效生成特效资产
开源生态系统#
该项目建立在几个高性能的专用库之上:
- O-Voxel:核心表示处理库
- FlexGEMM:基于 Triton 的高效稀疏卷积
- CuMesh:CUDA 加速的网格处理实用程序
结论#
TRELLIS.2 代表了 3D 生成技术的一个重要里程碑。其创新的 O-Voxel 表示和高效的生成架构为行业树立了新的标准。随着代码和预训练模型的完全开源,这项技术有望加速整个 3D 内容创作领域的发展。
对于开发人员和研究人员来说,现在是探索和利用这个强大工具的最佳时机。无论是商业应用还是学术研究,TRELLIS.2 都为自动化高质量 3D 内容生成打开了一扇新的大门。
项目地址:https://github.com/microsoft/TRELLIS.2
预训练模型:https://huggingface.co/microsoft/TRELLIS.2-4B



