Dans le domaine de la création de contenu 3D, les modèles génératifs efficaces et de haute qualité ont toujours été un objectif clé pour les chercheurs. Le modèle TRELLIS.2 de Microsoft, récemment mis en open source, apporte des progrès révolutionnaires à la génération 3D grâce à son architecture technique innovante et à ses performances exceptionnelles.
Qu'est-ce que TRELLIS.2 ?#
TRELLIS.2 est un modèle génératif 3D à grande échelle avec 4 milliards de paramètres, spécialement conçu pour la génération image-vers-3D haute fidélité. La principale avancée de ce modèle réside dans l'introduction d'une nouvelle représentation voxel clairsemée appelée "O-Voxel", qui transforme fondamentalement le flux de travail traditionnel de génération 3D.
Principales caractéristiques techniques#
🚀 Efficacité et qualité de génération exceptionnelles#
TRELLIS.2 atteint un équilibre parfait entre la vitesse de génération et la qualité :
| Résolution | Temps total | Génération de forme | Génération de matériau |
|---|---|---|---|
| 512³ | ~3 secondes | 2 secondes | 1 seconde |
| 1024³ | ~17 secondes | 10 secondes | 7 secondes |
| 1536³ | ~60 secondes | 35 secondes | 25 secondes |
Testé sur GPU NVIDIA H100
🔄 Représentation O-Voxel révolutionnaire#
Les représentations de champs iso-surfaces traditionnelles ont des limitations lors de la manipulation de structures complexes, mais la technologie O-Voxel brise ces contraintes :
- Gestion des surfaces ouvertes : Traite parfaitement les structures non fermées comme les vêtements et les feuilles
- Prise en charge de la géométrie non-manifold : Gère les topologies complexes sans conversions fastidieuses
- Préservation de la structure interne : Maintient complètement les détails des structures internes enfermées
🎨 Prise en charge complète des matériaux PBR#
Contrairement aux modèles qui ne génèrent que des couleurs de base, TRELLIS.2 prend en charge les matériaux Physically-Based Rendering (PBR) complets :
- Couleur de base
- Rugosité
- Métallique
- Opacité
⚡ Pipeline de traitement minimaliste#
TRELLIS.2 optimise le pipeline de traitement des données pour des conversions quasi instantanées :
- Mesh texturé → O-Voxel : <10 secondes (CPU unique)
- O-Voxel → Mesh texturé : <100 millisecondes (CUDA)
Innovations de l'architecture technique#
Encodage VAE 3D clairsemé#
Le modèle utilise un auto-encodeur variationnel 3D clairsemé avec un sous-échantillonnage spatial de 16× pour encoder les actifs 3D dans un espace latent compact, jetant ainsi les bases de la génération ultérieure.
Architecture de génération basée sur DiT#
Il utilise des Transformers de diffusion (DiT) standard pour une génération efficace, démontrant le potentiel puissant des architectures traditionnelles avec de nouvelles représentations.
Perspectives d'application#
Les avancées techniques de TRELLIS.2 ouvrent de nouvelles possibilités pour de nombreux domaines :
- Développement de jeux : Génération rapide d'actifs 3D de haute qualité
- Réalité virtuelle : Création en temps réel d'environnements immersifs
- Design industriel : Prototypage et visualisation rapides
- Production cinématographique : Génération efficace d'actifs d'effets spéciaux
Écosystème Open Source#
Le projet est construit sur plusieurs bibliothèques spécialisées de haute performance :
- O-Voxel : Bibliothèque de traitement de la représentation centrale
- FlexGEMM : Convolution clairsemée efficace basée sur Triton
- CuMesh : Utilitaires de traitement de mesh accélérés par CUDA
Conclusion#
TRELLIS.2 représente une étape importante dans la technologie de génération 3D. Sa représentation O-Voxel innovante et son architecture de génération efficace établissent de nouvelles normes pour l'industrie. Avec la mise en open source complète du code et des modèles pré-entraînés, cette technologie est sur le point d'accélérer le développement dans l'ensemble du domaine de la création de contenu 3D.
Pour les développeurs et les chercheurs, c'est le moment idéal pour explorer et exploiter cet outil puissant. Que ce soit pour des applications commerciales ou la recherche académique, TRELLIS.2 ouvre une nouvelle porte à la génération automatisée de contenu 3D de haute qualité.
Adresse du projet : https://github.com/microsoft/TRELLIS.2 Modèle pré-entraîné : https://huggingface.co/microsoft/TRELLIS.2-4B



