3D 콘텐츠 제작 분야에서 고품질의 효율적인 생성 모델은 항상 연구자들의 주요 목표였습니다. Microsoft에서 새롭게 오픈 소스로 공개한 TRELLIS.2 모델은 혁신적인 기술 아키텍처와 뛰어난 성능으로 3D 생성에 획기적인 발전을 가져왔습니다.
TRELLIS.2란 무엇인가?#
TRELLIS.2는 40억 개의 파라미터를 가진 대규모 3D 생성 모델로, 고화질 이미지-3D 생성을 위해 특별히 설계되었습니다. 이 모델의 핵심적인 혁신은 "O-Voxel"이라는 새로운 희소 복셀 표현을 도입하여 기존의 3D 생성 워크플로우를 근본적으로 변화시킨다는 점입니다.
주요 기술 특징#
🚀 뛰어난 생성 효율성과 품질#
TRELLIS.2는 생성 속도와 품질 사이의 완벽한 균형을 이룹니다:
| 해상도 | 총 시간 | 형태 생성 | 재질 생성 |
|---|---|---|---|
| 512³ | ~3초 | 2초 | 1초 |
| 1024³ | ~17초 | 10초 | 7초 |
| 1536³ | ~60초 | 35초 | 25초 |
NVIDIA H100 GPU에서 테스트됨
🔄 혁신적인 O-Voxel 표현#
기존의 등가 표면 필드 표현은 복잡한 구조를 처리하는 데 한계가 있지만, O-Voxel 기술은 이러한 제약을 극복합니다:
- 개방형 표면 처리: 의류나 나뭇잎과 같은 비폐쇄형 구조를 완벽하게 처리
- 비다양체 기하 구조 지원: 복잡한 토폴로지를 번거로운 변환 없이 처리
- 내부 구조 보존: 내부 폐쇄 구조의 세부 사항을 완벽하게 유지
🎨 완전한 PBR 재질 지원#
기본 색상만 생성하는 모델과 달리 TRELLIS.2는 완전한 물리 기반 렌더링(PBR) 재질을 지원합니다:
- 기본 색상
- 거칠기
- 금속성
- 불투명도
⚡ 최소한의 처리 파이프라인#
TRELLIS.2는 거의 즉각적인 변환을 위해 데이터 처리 파이프라인을 최적화합니다:
- 텍스처 메시 → O-Voxel: <10초 (단일 CPU)
- O-Voxel → 텍스처 메시: <100밀리초 (CUDA)
기술 아키텍처 혁신#
희소 3D VAE 인코딩#
이 모델은 16배 공간 다운샘플링을 사용하는 희소 3D Variational Autoencoder를 사용하여 3D 에셋을 컴팩트한 잠재 공간으로 인코딩하여 후속 생성을 위한 기반을 마련합니다.
DiT 기반 생성 아키텍처#
표준 Diffusion Transformers (DiT)를 사용하여 효율적인 생성을 수행하며, 새로운 표현을 통해 기존 아키텍처의 강력한 잠재력을 보여줍니다.
응용 분야 전망#
TRELLIS.2의 기술적 혁신은 여러 분야에서 새로운 가능성을 열어줍니다:
- 게임 개발: 고품질 3D 에셋의 빠른 생성
- 가상 현실: 몰입형 환경의 실시간 생성
- 산업 디자인: 빠른 프로토타입 제작 및 시각화
- 영화 제작: 특수 효과 에셋의 효율적인 생성
오픈 소스 생태계#
이 프로젝트는 여러 고성능 전문 라이브러리를 기반으로 구축되었습니다:
- O-Voxel: 핵심 표현 처리 라이브러리
- FlexGEMM: Triton 기반의 효율적인 희소 컨볼루션
- CuMesh: CUDA 가속 메시 처리 유틸리티
결론#
TRELLIS.2는 3D 생성 기술의 중요한 이정표를 나타냅니다. 혁신적인 O-Voxel 표현과 효율적인 생성 아키텍처는 업계의 새로운 표준을 제시합니다. 코드와 사전 훈련된 모델의 완전한 오픈 소스화를 통해 이 기술은 전체 3D 콘텐츠 제작 분야의 발전을 가속화할 준비가 되어 있습니다.
개발자와 연구자에게 지금이 이 강력한 도구를 탐색하고 활용할 완벽한 시기입니다. 상업적 응용 분야든 학술 연구든 TRELLIS.2는 자동화된 고품질 3D 콘텐츠 생성을 위한 새로운 문을 열어줍니다.
프로젝트 주소: https://github.com/microsoft/TRELLIS.2 사전 훈련된 모델: https://huggingface.co/microsoft/TRELLIS.2-4B



