Inden for 3D-indholdsskabelse har højkvalitets og effektive generative modeller altid været et centralt mål for forskere. Microsofts nyligt open-sourced TRELLIS.2 model bringer banebrydende fremskridt til 3D-generering med sin innovative tekniske arkitektur og exceptionelle ydeevne.
Hvad er TRELLIS.2?#
TRELLIS.2 er en storstilet 3D-generativ model med 4 milliarder parametre, der er specifikt designet til høj-fidelity billede-til-3D-generering. Det centrale gennembrud i denne model ligger i introduktionen af en ny sparsom voxel-repræsentation kaldet "O-Voxel," som fundamentalt transformerer den traditionelle 3D-genereringsworkflow.
Vigtigste tekniske funktioner#
🚀 Exceptionel genereringseffektivitet og -kvalitet#
TRELLIS.2 opnår en perfekt balance mellem genereringshastighed og kvalitet:
| Opløsning | Samlet tid | Formgenerering | Materialegenerering |
|---|---|---|---|
| 512³ | ~3 sekunder | 2 sekunder | 1 sekund |
| 1024³ | ~17 sekunder | 10 sekunder | 7 sekunder |
| 1536³ | ~60 sekunder | 35 sekunder | 25 sekunder |
Testet på NVIDIA H100 GPU
🔄 Revolutionerende O-Voxel-repræsentation#
Traditionelle iso-overfladefeltrepræsentationer har begrænsninger, når de håndterer komplekse strukturer, men O-Voxel-teknologien bryder disse begrænsninger:
- Åben overfladehåndtering: Behandler perfekt ikke-lukkede strukturer som tøj og blade
- Ikke-manifold geometri support: Håndterer komplekse topologier uden besværlige konverteringer
- Intern strukturbevarelse: Vedligeholder detaljer om interne lukkede strukturer fuldstændigt
🎨 Fuld PBR-materialesupport#
I modsætning til modeller, der kun genererer grundlæggende farver, understøtter TRELLIS.2 komplette Physically-Based Rendering (PBR) materialer:
- Basisfarve
- Ruhed
- Metallisk
- Opacitet
⚡ Minimalistisk behandlingspipeline#
TRELLIS.2 optimerer databehandlingspipelinen for næsten øjeblikkelige konverteringer:
- Tekstureret mesh → O-Voxel: <10 sekunder (enkelt CPU)
- O-Voxel → Tekstureret mesh: <100 millisekunder (CUDA)
Tekniske arkitekturinnovationer#
Sparsom 3D VAE-kodning#
Modellen bruger en sparsom 3D Variational Autoencoder med 16× spatial downsampling til at kode 3D-aktiver til et kompakt latent rum, hvilket lægger grundlaget for efterfølgende generering.
DiT-baseret genereringsarkitektur#
Den anvender standard Diffusion Transformers (DiT) til effektiv generering, hvilket demonstrerer det kraftfulde potentiale i traditionelle arkitekturer med nye repræsentationer.
Anvendelsesmuligheder#
TRELLIS.2's tekniske gennembrud åbner nye muligheder for flere områder:
- Spiludvikling: Hurtig generering af 3D-aktiver i høj kvalitet
- Virtual Reality: Realtidsskabelse af immersive miljøer
- Industrielt design: Hurtig prototyping og visualisering
- Filmproduktion: Effektiv generering af special effects-aktiver
Open Source-økosystem#
Projektet er bygget på flere højtydende specialiserede biblioteker:
- O-Voxel: Kernebibliotek til repræsentationsbehandling
- FlexGEMM: Effektiv sparsom konvolution baseret på Triton
- CuMesh: CUDA-accelererede mesh-behandlingsværktøjer
Konklusion#
TRELLIS.2 repræsenterer en betydelig milepæl inden for 3D-genereringsteknologi. Dens innovative O-Voxel-repræsentation og effektive genereringsarkitektur sætter nye standarder for branchen. Med den komplette open-sourcing af kode og præ-trænede modeller er denne teknologi klar til at accelerere udviklingen på tværs af hele 3D-indholdsskabelseområdet.
For udviklere og forskere er det nu det perfekte tidspunkt at udforske og udnytte dette kraftfulde værktøj. Uanset om det er til kommercielle applikationer eller akademisk forskning, åbner TRELLIS.2 en ny dør til automatiseret 3D-indholdsgenerering i høj kvalitet.
Projektadresse: https://github.com/microsoft/TRELLIS.2 Præ-trænet model: https://huggingface.co/microsoft/TRELLIS.2-4B



