3Dコンテンツ制作の分野において、高品質かつ効率的な生成モデルは、常に研究者にとって重要な目標でした。マイクロソフトが新たにオープンソース化したTRELLIS.2モデルは、革新的な技術アーキテクチャと卓越した性能により、3D生成に画期的な進歩をもたらします。
TRELLIS.2とは?#
TRELLIS.2は、40億のパラメータを持つ大規模な3D生成モデルであり、特に高忠実度の画像から3D生成を行うために設計されています。このモデルの核心的なブレークスルーは、「O-Voxel」と呼ばれる新しい疎なボクセル表現を導入したことであり、従来の3D生成ワークフローを根本的に変革します。
主な技術的特徴#
🚀 卓越した生成効率と品質#
TRELLIS.2は、生成速度と品質の完璧なバランスを実現しています。
| 解像度 | 合計時間 | 形状生成 | マテリアル生成 |
|---|---|---|---|
| 512³ | ~3秒 | 2秒 | 1秒 |
| 1024³ | ~17秒 | 10秒 | 7秒 |
| 1536³ | ~60秒 | 35秒 | 25秒 |
NVIDIA H100 GPUでテスト済み
🔄 革新的なO-Voxel表現#
従来のアイソサーフェスフィールド表現は、複雑な構造を扱う際に限界がありますが、O-Voxel技術はこれらの制約を打ち破ります。
- オープンサーフェスの処理: 衣類や葉のような非閉鎖構造を完璧に処理
- 非多様体ジオメトリのサポート: 面倒な変換なしに複雑なトポロジーを処理
- 内部構造の保持: 内部の閉鎖された構造の詳細を完全に維持
🎨 フルPBRマテリアルのサポート#
基本的な色しか生成しないモデルとは異なり、TRELLIS.2は完全な物理ベースレンダリング(PBR)マテリアルをサポートしています。
- ベースカラー
- ラフネス
- メタリック
- オパシティ
⚡ 最小限の処理パイプライン#
TRELLIS.2は、ほぼ瞬時の変換のためにデータ処理パイプラインを最適化します。
- テクスチャメッシュ → O-Voxel: 10秒未満(シングルCPU)
- O-Voxel → テクスチャメッシュ: 100ミリ秒未満(CUDA)
技術アーキテクチャの革新#
疎な3D VAEエンコーディング#
このモデルは、16倍の空間ダウンサンプリングを備えた疎な3D変分オートエンコーダを使用して、3Dアセットをコンパクトな潜在空間にエンコードし、その後の生成の基礎を築きます。
DiTベースの生成アーキテクチャ#
効率的な生成のために標準的なDiffusion Transformers(DiT)を採用し、新しい表現による従来のアーキテクチャの強力な可能性を示しています。
応用分野#
TRELLIS.2の技術的なブレークスルーは、複数の分野で新たな可能性を開きます。
- ゲーム開発: 高品質な3Dアセットの迅速な生成
- バーチャルリアリティ: 没入型環境のリアルタイム作成
- 工業デザイン: 高速プロトタイピングと視覚化
- 映画制作: 特殊効果アセットの効率的な生成
オープンソースエコシステム#
このプロジェクトは、いくつかの高性能な特殊ライブラリ上に構築されています。
- O-Voxel: コアとなる表現処理ライブラリ
- FlexGEMM: Tritonに基づく効率的な疎な畳み込み
- CuMesh: CUDAで高速化されたメッシュ処理ユーティリティ
結論#
TRELLIS.2は、3D生成技術における重要なマイルストーンです。その革新的なO-Voxel表現と効率的な生成アーキテクチャは、業界の新たな標準を打ち立てます。コードと事前トレーニング済みモデルの完全なオープンソース化により、この技術は3Dコンテンツ制作分野全体の開発を加速させることが期待されます。
開発者や研究者にとって、今こそこの強力なツールを探求し、活用する絶好の機会です。商用アプリケーションであろうと学術研究であろうと、TRELLIS.2は自動化された高品質な3Dコンテンツ生成への新たな扉を開きます。
プロジェクトアドレス: https://github.com/microsoft/TRELLIS.2 事前トレーニング済みモデル: https://huggingface.co/microsoft/TRELLIS.2-4B



