No campo da criação de conteúdo 3D, modelos generativos eficientes e de alta qualidade sempre foram um objetivo fundamental para os pesquisadores. O modelo TRELLIS.2 da Microsoft, recém-lançado como código aberto, traz um progresso inovador para a geração 3D com sua arquitetura técnica inovadora e desempenho excepcional.
O que é TRELLIS.2?#
TRELLIS.2 é um modelo generativo 3D de grande escala com 4 bilhões de parâmetros, projetado especificamente para geração de imagem para 3D de alta fidelidade. O principal avanço deste modelo reside na introdução de uma nova representação de voxel esparso chamada "O-Voxel", que transforma fundamentalmente o fluxo de trabalho tradicional de geração 3D.
Principais Características Técnicas#
🚀 Eficiência e Qualidade de Geração Excepcionais#
TRELLIS.2 alcança um equilíbrio perfeito entre velocidade e qualidade de geração:
| Resolução | Tempo Total | Geração de Forma | Geração de Material |
|---|---|---|---|
| 512³ | ~3 segundos | 2 segundos | 1 segundo |
| 1024³ | ~17 segundos | 10 segundos | 7 segundos |
| 1536³ | ~60 segundos | 35 segundos | 25 segundos |
Testado na GPU NVIDIA H100
🔄 Representação O-Voxel Revolucionária#
As representações de campo de iso-superfície tradicionais têm limitações ao lidar com estruturas complexas, mas a tecnologia O-Voxel rompe essas restrições:
- Manuseio de Superfícies Abertas: Processa perfeitamente estruturas não fechadas, como roupas e folhas
- Suporte a Geometria Não-Manifold: Lida com topologias complexas sem conversões complicadas
- Preservação da Estrutura Interna: Mantém completamente os detalhes das estruturas internas fechadas
🎨 Suporte Completo a Materiais PBR#
Ao contrário dos modelos que geram apenas cores básicas, o TRELLIS.2 suporta materiais completos de Renderização Baseada Fisicamente (PBR):
- Cor Base
- Rugosidade
- Metálico
- Opacidade
⚡ Pipeline de Processamento Minimalista#
TRELLIS.2 otimiza o pipeline de processamento de dados para conversões quase instantâneas:
- Malha Texturizada → O-Voxel: <10 segundos (CPU único)
- O-Voxel → Malha Texturizada: <100 milissegundos (CUDA)
Inovações na Arquitetura Técnica#
Codificação VAE 3D Esparsa#
O modelo usa um Autoencoder Variacional 3D esparso com downsampling espacial de 16× para codificar ativos 3D em um espaço latente compacto, estabelecendo as bases para a geração subsequente.
Arquitetura de Geração Baseada em DiT#
Ele emprega Transformadores de Difusão (DiT) padrão para geração eficiente, demonstrando o poderoso potencial das arquiteturas tradicionais com novas representações.
Perspectivas de Aplicação#
Os avanços técnicos do TRELLIS.2 abrem novas possibilidades para vários campos:
- Desenvolvimento de Jogos: Geração rápida de ativos 3D de alta qualidade
- Realidade Virtual: Criação em tempo real de ambientes imersivos
- Design Industrial: Prototipagem e visualização rápidas
- Produção de Filmes: Geração eficiente de ativos de efeitos especiais
Ecossistema de Código Aberto#
O projeto é construído em várias bibliotecas especializadas de alto desempenho:
- O-Voxel: Biblioteca de processamento de representação central
- FlexGEMM: Convolução esparsa eficiente baseada em Triton
- CuMesh: Utilitários de processamento de malha acelerados por CUDA
Conclusão#
TRELLIS.2 representa um marco significativo na tecnologia de geração 3D. Sua representação O-Voxel inovadora e arquitetura de geração eficiente estabelecem novos padrões para a indústria. Com a abertura completa do código e dos modelos pré-treinados, esta tecnologia está preparada para acelerar o desenvolvimento em todo o campo de criação de conteúdo 3D.
Para desenvolvedores e pesquisadores, agora é o momento perfeito para explorar e aproveitar esta poderosa ferramenta. Seja para aplicações comerciais ou pesquisa acadêmica, o TRELLIS.2 abre uma nova porta para a geração automatizada de conteúdo 3D de alta qualidade.
Endereço do Projeto: https://github.com/microsoft/TRELLIS.2 Modelo Pré-treinado: https://huggingface.co/microsoft/TRELLIS.2-4B



