在 3D 內容創作領域,高品質且高效率的生成模型一直是研究人員的主要目標。微軟新近開源的 TRELLIS.2 模型,以其創新的技術架構和卓越的性能,為 3D 生成帶來了突破性的進展。
什麼是 TRELLIS.2?#
TRELLIS.2 是一個具有 40 億參數的大型 3D 生成模型,專為高保真圖像到 3D 的生成而設計。該模型的核心突破在於引入了一種名為 "O-Voxel" 的新型稀疏體素表示,從根本上改變了傳統的 3D 生成工作流程。
主要技術特點#
🚀 卓越的生成效率和品質#
TRELLIS.2 在生成速度和品質之間取得了完美的平衡:
| 解析度 | 總時間 | 形狀生成 | 材質生成 |
|---|---|---|---|
| 512³ | ~3 秒 | 2 秒 | 1 秒 |
| 1024³ | ~17 秒 | 10 秒 | 7 秒 |
| 1536³ | ~60 秒 | 35 秒 | 25 秒 |
在 NVIDIA H100 GPU 上測試
🔄 革命性的 O-Voxel 表示#
傳統的等值面場表示在處理複雜結構時存在局限性,但 O-Voxel 技術突破了這些限制:
- 開放表面處理:完美處理非封閉結構,如服裝和樹葉
- 非流形幾何支援:處理複雜的拓撲結構,無需繁瑣的轉換
- 內部結構保留:完整保留內部封閉結構的細節
🎨 完整的 PBR 材質支援#
與僅生成基本顏色的模型不同,TRELLIS.2 支援完整的基於物理的渲染 (PBR) 材質:
- 基礎顏色
- 粗糙度
- 金屬度
- 不透明度
⚡ 極簡的處理流程#
TRELLIS.2 優化了資料處理流程,實現近乎即時的轉換:
- 紋理網格 → O-Voxel:<10 秒(單個 CPU)
- O-Voxel → 紋理網格:<100 毫秒 (CUDA)
技術架構創新#
稀疏 3D VAE 編碼#
該模型使用具有 16 倍空間下採樣的稀疏 3D 變分自動編碼器,將 3D 資產編碼為緊湊的潛在空間,為後續生成奠定基礎。
基於 DiT 的生成架構#
它採用標準的擴散轉換器 (DiT) 進行高效生成,展示了傳統架構在新表示形式下的強大潛力。
應用前景#
TRELLIS.2 的技術突破為多個領域開闢了新的可能性:
- 遊戲開發:快速生成高品質的 3D 資產
- 虛擬實境:即時創建沉浸式環境
- 工業設計:快速原型設計和視覺化
- 電影製作:高效生成特效資產
開源生態系統#
該專案建立在幾個高性能的專用庫之上:
- O-Voxel:核心表示處理庫
- FlexGEMM:基於 Triton 的高效稀疏卷積
- CuMesh:CUDA 加速的網格處理工具
結論#
TRELLIS.2 代表了 3D 生成技術的一個重要里程碑。其創新的 O-Voxel 表示和高效的生成架構為行業設定了新的標準。隨著程式碼和預訓練模型的完全開源,這項技術有望加速整個 3D 內容創作領域的發展。
對於開發人員和研究人員來說,現在是探索和利用這個強大工具的絕佳時機。無論是用於商業應用還是學術研究,TRELLIS.2 都為自動化的高品質 3D 內容生成打開了一扇新的大門。
專案地址:https://github.com/microsoft/TRELLIS.2
預訓練模型:https://huggingface.co/microsoft/TRELLIS.2-4B



