Innenfor 3D-innholdsproduksjon har høykvalitets og effektive generative modeller alltid vært et sentralt mål for forskere. Microsofts nylig åpenkildekode-utgitte TRELLIS.2-modell bringer banebrytende fremskritt til 3D-generering med sin innovative tekniske arkitektur og eksepsjonelle ytelse.
Hva er TRELLIS.2?#
TRELLIS.2 er en storskala 3D-generativ modell med 4 milliarder parametere, spesielt designet for høyoppløselig bilde-til-3D-generering. Det sentrale gjennombruddet i denne modellen ligger i introduksjonen av en ny sparsom voxel-representasjon kalt "O-Voxel," som fundamentalt transformerer den tradisjonelle 3D-genereringsarbeidsflyten.
Viktige tekniske funksjoner#
🚀 Eksepsjonell genereringseffektivitet og kvalitet#
TRELLIS.2 oppnår en perfekt balanse mellom genereringshastighet og kvalitet:
| Oppløsning | Total tid | Formgenerering | Materialgenerering |
|---|---|---|---|
| 512³ | ~3 sekunder | 2 sekunder | 1 sekund |
| 1024³ | ~17 sekunder | 10 sekunder | 7 sekunder |
| 1536³ | ~60 sekunder | 35 sekunder | 25 sekunder |
Testet på NVIDIA H100 GPU
🔄 Revolusjonerende O-Voxel-representasjon#
Tradisjonelle iso-overflatefeltrepresentasjoner har begrensninger når de håndterer komplekse strukturer, men O-Voxel-teknologien bryter gjennom disse begrensningene:
- Åpen overflatehåndtering: Prosesserer perfekt ikke-lukkede strukturer som klær og blader
- Støtte for ikke-manifold-geometri: Håndterer komplekse topologier uten tungvinte konverteringer
- Bevaring av intern struktur: Opprettholder detaljer i interne lukkede strukturer fullstendig
🎨 Full PBR-materialstøtte#
I motsetning til modeller som bare genererer grunnleggende farger, støtter TRELLIS.2 komplette Physically-Based Rendering (PBR)-materialer:
- Basisfarge
- Ruhet
- Metallisk
- Opasitet
⚡ Minimalistisk prosesseringspipeline#
TRELLIS.2 optimaliserer dataprosesseringspipelinen for nesten umiddelbare konverteringer:
- Teksturert mesh → O-Voxel: <10 sekunder (enkelt CPU)
- O-Voxel → Teksturert mesh: <100 millisekunder (CUDA)
Tekniske arkitekturinnovasjoner#
Sparsom 3D VAE-koding#
Modellen bruker en sparsom 3D Variational Autoencoder med 16× romlig nedskalering for å kode 3D-ressurser til et kompakt latent rom, og legger grunnlaget for påfølgende generering.
DiT-basert genereringsarkitektur#
Den bruker standard Diffusion Transformers (DiT) for effektiv generering, og demonstrerer det kraftige potensialet til tradisjonelle arkitekturer med nye representasjoner.
Anvendelsesmuligheter#
TRELLIS.2s tekniske gjennombrudd åpner for nye muligheter innen flere felt:
- Spillutvikling: Rask generering av høykvalitets 3D-ressurser
- Virtual Reality: Sanntidsopprettelse av oppslukende miljøer
- Industriell design: Rask prototyping og visualisering
- Filmproduksjon: Effektiv generering av spesialeffektressurser
Åpen kildekode-økosystem#
Prosjektet er bygget på flere høytytende spesialiserte biblioteker:
- O-Voxel: Kjernebibliotek for representasjonsbehandling
- FlexGEMM: Effektiv sparsom konvolusjon basert på Triton
- CuMesh: CUDA-akselererte mesh-behandlingsverktøy
Konklusjon#
TRELLIS.2 representerer en betydelig milepæl innen 3D-genereringsteknologi. Dens innovative O-Voxel-representasjon og effektive genereringsarkitektur setter nye standarder for industrien. Med fullstendig åpen kildekode for kode og forhåndstrente modeller, er denne teknologien klar til å akselerere utviklingen på tvers av hele 3D-innholdsproduksjonsfeltet.
For utviklere og forskere er nå det perfekte tidspunktet for å utforske og utnytte dette kraftige verktøyet. Enten det er for kommersielle applikasjoner eller akademisk forskning, åpner TRELLIS.2 en ny dør til automatisert høykvalitets 3D-innholdsgenerering.
Prosjektadresse: https://github.com/microsoft/TRELLIS.2
Forhåndstrent modell: https://huggingface.co/microsoft/TRELLIS.2-4B



