В области создания 3D-контента высококачественные и эффективные генеративные модели всегда были ключевой целью для исследователей. Новая модель TRELLIS.2 от Microsoft с открытым исходным кодом привносит революционный прогресс в 3D-генерацию благодаря своей инновационной технической архитектуре и исключительной производительности.
Что такое TRELLIS.2?#
TRELLIS.2 — это крупномасштабная 3D-генеративная модель с 4 миллиардами параметров, специально разработанная для высокоточной генерации 3D из изображений. Основной прорыв этой модели заключается во внедрении нового разреженного воксельного представления под названием "O-Voxel", которое коренным образом преобразует традиционный рабочий процесс 3D-генерации.
Ключевые технические особенности#
🚀 Исключительная эффективность и качество генерации#
TRELLIS.2 достигает идеального баланса между скоростью и качеством генерации:
| Разрешение | Общее время | Генерация формы | Генерация материала |
|---|---|---|---|
| 512³ | ~3 секунды | 2 секунды | 1 секунда |
| 1024³ | ~17 секунд | 10 секунд | 7 секунд |
| 1536³ | ~60 секунд | 35 секунд | 25 секунд |
Протестировано на NVIDIA H100 GPU
🔄 Революционное представление O-Voxel#
Традиционные представления изоповерхностей имеют ограничения при обработке сложных структур, но технология O-Voxel преодолевает эти ограничения:
- Обработка открытых поверхностей: Превосходно обрабатывает незамкнутые структуры, такие как одежда и листья
- Поддержка не-многосвязной геометрии: Обрабатывает сложные топологии без громоздких преобразований
- Сохранение внутренней структуры: Полностью сохраняет детали внутренних замкнутых структур
🎨 Полная поддержка PBR-материалов#
В отличие от моделей, которые генерируют только основные цвета, TRELLIS.2 поддерживает полные Physically-Based Rendering (PBR) материалы:
- Базовый цвет
- Шероховатость
- Металличность
- Непрозрачность
⚡ Минималистичный конвейер обработки#
TRELLIS.2 оптимизирует конвейер обработки данных для почти мгновенных преобразований:
- Текстурированная сетка → O-Voxel: <10 секунд (один CPU)
- O-Voxel → Текстурированная сетка: <100 миллисекунд (CUDA)
Инновации технической архитектуры#
Разреженное 3D VAE кодирование#
Модель использует разреженный 3D Variational Autoencoder с 16-кратным пространственным понижением дискретизации для кодирования 3D-активов в компактное латентное пространство, закладывая основу для последующей генерации.
Архитектура генерации на основе DiT#
В ней используются стандартные Diffusion Transformers (DiT) для эффективной генерации, что демонстрирует мощный потенциал традиционных архитектур с новыми представлениями.
Перспективы применения#
Технические прорывы TRELLIS.2 открывают новые возможности для различных областей:
- Разработка игр: Быстрая генерация высококачественных 3D-активов
- Виртуальная реальность: Создание иммерсивных сред в реальном времени
- Промышленный дизайн: Быстрое прототипирование и визуализация
- Кинопроизводство: Эффективная генерация активов для спецэффектов
Экосистема открытого исходного кода#
Проект построен на нескольких высокопроизводительных специализированных библиотеках:
- O-Voxel: Основная библиотека обработки представлений
- FlexGEMM: Эффективная разреженная свертка на основе Triton
- CuMesh: Утилиты обработки сеток с ускорением CUDA
Заключение#
TRELLIS.2 представляет собой важную веху в технологии 3D-генерации. Его инновационное представление O-Voxel и эффективная архитектура генерации устанавливают новые стандарты для отрасли. Благодаря полному открытию исходного кода и предварительно обученных моделей эта технология готова ускорить разработку во всей области создания 3D-контента.
Для разработчиков и исследователей сейчас самое подходящее время для изучения и использования этого мощного инструмента. Будь то коммерческие приложения или академические исследования, TRELLIS.2 открывает новую дверь в автоматизированную высококачественную генерацию 3D-контента.
Адрес проекта: https://github.com/microsoft/TRELLIS.2
Предварительно обученная модель: https://huggingface.co/microsoft/TRELLIS.2-4B



