W dziedzinie tworzenia treści 3D, wysokiej jakości i wydajne modele generatywne zawsze były kluczowym celem dla badaczy. Nowo udostępniony przez Microsoft model TRELLIS.2 wnosi przełomowy postęp w generowaniu 3D dzięki innowacyjnej architekturze technicznej i wyjątkowej wydajności.
Czym jest TRELLIS.2?#
TRELLIS.2 to model generatywny 3D na dużą skalę, posiadający 4 miliardy parametrów, zaprojektowany specjalnie do generowania obrazów do 3D o wysokiej wierności. Kluczowy przełom tego modelu polega na wprowadzeniu nowej, rzadkiej reprezentacji wokseli zwanej "O-Voxel", która zasadniczo przekształca tradycyjny przepływ pracy generowania 3D.
Kluczowe cechy techniczne#
🚀 Wyjątkowa wydajność i jakość generowania#
TRELLIS.2 osiąga idealną równowagę między szybkością generowania a jakością:
| Rozdzielczość | Czas całkowity | Generowanie kształtu | Generowanie materiału |
|---|---|---|---|
| 512³ | ~3 sekundy | 2 sekundy | 1 sekunda |
| 1024³ | ~17 sekund | 10 sekund | 7 sekund |
| 1536³ | ~60 sekund | 35 sekund | 25 sekund |
Testowane na GPU NVIDIA H100
🔄 Rewolucyjna reprezentacja O-Voxel#
Tradycyjne reprezentacje pól izo-powierzchni mają ograniczenia w obsłudze złożonych struktur, ale technologia O-Voxel przełamuje te ograniczenia:
- Obsługa otwartych powierzchni: Doskonale przetwarza struktury nie zamknięte, takie jak ubrania i liście
- Obsługa geometrii nie-rozmaitych: Obsługuje złożone topologie bez uciążliwych konwersji
- Zachowanie struktury wewnętrznej: W pełni zachowuje szczegóły wewnętrznych, zamkniętych struktur
🎨 Pełna obsługa materiałów PBR#
W przeciwieństwie do modeli, które generują tylko podstawowe kolory, TRELLIS.2 obsługuje kompletne materiały oparte na renderowaniu fizycznym (PBR):
- Kolor bazowy
- Szorstkość
- Metaliczność
- Krycie
⚡ Minimalistyczny potok przetwarzania#
TRELLIS.2 optymalizuje potok przetwarzania danych w celu niemal natychmiastowych konwersji:
- Siatka teksturowana → O-Voxel: <10 sekund (pojedynczy CPU)
- O-Voxel → Siatka teksturowana: <100 milisekund (CUDA)
Innowacje w architekturze technicznej#
Rzadkie kodowanie 3D VAE#
Model wykorzystuje rzadki 3D Wariacyjny Autoenkoder z 16-krotnym przestrzennym downsamplingiem do kodowania zasobów 3D w zwartą przestrzeń utajoną, tworząc podstawę do późniejszego generowania.
Architektura generowania oparta na DiT#
Wykorzystuje standardowe transformatory dyfuzyjne (DiT) do wydajnego generowania, demonstrując potężny potencjał tradycyjnych architektur z nowymi reprezentacjami.
Perspektywy zastosowania#
Przełomy techniczne TRELLIS.2 otwierają nowe możliwości dla wielu dziedzin:
- Tworzenie gier: Szybkie generowanie wysokiej jakości zasobów 3D
- Wirtualna rzeczywistość: Tworzenie w czasie rzeczywistym wciągających środowisk
- Projektowanie przemysłowe: Szybkie prototypowanie i wizualizacja
- Produkcja filmowa: Wydajne generowanie zasobów efektów specjalnych
Ekosystem Open Source#
Projekt jest zbudowany na kilku wyspecjalizowanych bibliotekach o wysokiej wydajności:
- O-Voxel: Biblioteka przetwarzania reprezentacji rdzenia
- FlexGEMM: Wydajna konwolucja rzadka oparta na Triton
- CuMesh: Narzędzia do przetwarzania siatek przyspieszone przez CUDA
Podsumowanie#
TRELLIS.2 stanowi znaczący kamień milowy w technologii generowania 3D. Jego innowacyjna reprezentacja O-Voxel i wydajna architektura generowania ustanawiają nowe standardy dla branży. Dzięki pełnemu udostępnieniu kodu i wstępnie wytrenowanych modeli, technologia ta jest gotowa przyspieszyć rozwój w całej dziedzinie tworzenia treści 3D.
Dla programistów i badaczy nadszedł idealny moment, aby zbadać i wykorzystać to potężne narzędzie. Niezależnie od tego, czy chodzi o zastosowania komercyjne, czy badania akademickie, TRELLIS.2 otwiera nowe drzwi do zautomatyzowanego generowania wysokiej jakości treści 3D.
Adres projektu: https://github.com/microsoft/TRELLIS.2
Wstępnie wytrenowany model: https://huggingface.co/microsoft/TRELLIS.2-4B



