打破 3D 生成的限制:深入了解微软的 TRELLIS.2

打破 3D 生成的限制:深入了解微软的 TRELLIS.2

2 min read

在 3D 内容创作领域,高质量和高效率的生成模型一直是研究人员的关键目标。微软新开源的 TRELLIS.2 模型以其创新的技术架构和卓越的性能,为 3D 生成带来了突破性的进展。

什么是 TRELLIS.2?#

Try it

TRELLIS.2 是一个拥有 40 亿参数的大规模 3D 生成模型,专为高保真图像到 3D 的生成而设计。该模型的核心突破在于引入了一种名为"O-Voxel"的新型稀疏体素表示,从根本上改变了传统的 3D 生成工作流程。

关键技术特性#

🚀 出色的生成效率和质量#

TRELLIS.2 在生成速度和质量之间实现了完美的平衡:

分辨率总时间形状生成材质生成
512³~3 秒2 秒1 秒
1024³~17 秒10 秒7 秒
1536³~60 秒35 秒25 秒

在 NVIDIA H100 GPU 上测试

🔄 革命性的 O-Voxel 表示#

传统的等值面场表示在处理复杂结构时存在局限性,但 O-Voxel 技术突破了这些限制:

  • 开放表面处理:完美处理非封闭结构,如服装和树叶
  • 非流形几何体支持:处理复杂的拓扑结构,无需繁琐的转换
  • 内部结构保留:完全保持内部封闭结构的细节

🎨 完整的 PBR 材质支持#

与仅生成基本颜色的模型不同,TRELLIS.2 支持完整的基于物理的渲染 (PBR) 材质:

  • 基础颜色
  • 粗糙度
  • 金属度
  • 不透明度

⚡ 极简的处理流程#

TRELLIS.2 优化了数据处理流程,实现近乎瞬时的转换:

  • 纹理网格 → O-Voxel:<10 秒(单 CPU)
  • O-Voxel → 纹理网格:<100 毫秒 (CUDA)

技术架构创新#

稀疏 3D VAE 编码#

该模型使用具有 16 倍空间下采样的稀疏 3D 变分自动编码器,将 3D 资产编码为紧凑的潜在空间,为后续生成奠定基础。

基于 DiT 的生成架构#

它采用标准的扩散 Transformer (DiT) 进行高效生成,展示了传统架构在新表示形式下的强大潜力。

应用前景#

TRELLIS.2 的技术突破为多个领域开辟了新的可能性:

  1. 游戏开发:快速生成高质量的 3D 资产
  2. 虚拟现实:实时创建沉浸式环境
  3. 工业设计:快速原型设计和可视化
  4. 电影制作:高效生成特效资产

开源生态系统#

该项目建立在几个高性能的专用库之上:

  • O-Voxel:核心表示处理库
  • FlexGEMM:基于 Triton 的高效稀疏卷积
  • CuMesh:CUDA 加速的网格处理实用程序

结论#

TRELLIS.2 代表了 3D 生成技术的一个重要里程碑。其创新的 O-Voxel 表示和高效的生成架构为行业树立了新的标准。随着代码和预训练模型的完全开源,这项技术有望加速整个 3D 内容创作领域的发展。

对于开发人员和研究人员来说,现在是探索和利用这个强大工具的最佳时机。无论是商业应用还是学术研究,TRELLIS.2 都为自动化高质量 3D 内容生成打开了一扇新的大门。

项目地址:https://github.com/microsoft/TRELLIS.2
预训练模型:https://huggingface.co/microsoft/TRELLIS.2-4B

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Try Trellis 2

Transform your creative ideas into reality with Story321 AI tools

Try Trellis 2

Related Articles