ในแวดวงการสร้างสรรค์คอนเทนต์ 3D โมเดลเชิงสร้างสรรค์ที่มีคุณภาพสูงและมีประสิทธิภาพถือเป็นเป้าหมายหลักของนักวิจัยมาโดยตลอด โมเดล TRELLIS.2 ที่ Microsoft เพิ่งเปิดเป็นโอเพนซอร์สได้นำมาซึ่งความก้าวล้ำในการสร้าง 3D ด้วยสถาปัตยกรรมทางเทคนิคที่เป็นนวัตกรรมและประสิทธิภาพที่ยอดเยี่ยม
TRELLIS.2 คืออะไร?#
TRELLIS.2 คือโมเดลเชิงสร้างสรรค์ 3D ขนาดใหญ่ที่มีพารามิเตอร์ 4 พันล้านตัว ซึ่งได้รับการออกแบบมาโดยเฉพาะสำหรับการสร้าง 3D จากภาพที่มีความเที่ยงตรงสูง ความก้าวหน้าหลักของโมเดลนี้อยู่ที่การนำเสนอการแสดงผลแบบ sparse voxel ที่เรียกว่า "O-Voxel" ซึ่งเปลี่ยนแปลงขั้นตอนการสร้าง 3D แบบเดิมๆ อย่างสิ้นเชิง
คุณสมบัติทางเทคนิคที่สำคัญ#
🚀 ประสิทธิภาพและคุณภาพในการสร้างที่ยอดเยี่ยม#
TRELLIS.2 บรรลุความสมดุลที่สมบูรณ์แบบระหว่างความเร็วและคุณภาพในการสร้าง:
| ความละเอียด | เวลาทั้งหมด | การสร้างรูปร่าง | การสร้างวัสดุ |
|---|---|---|---|
| 512³ | ~3 วินาที | 2 วินาที | 1 วินาที |
| 1024³ | ~17 วินาที | 10 วินาที | 7 วินาที |
| 1536³ | ~60 วินาที | 35 วินาที | 25 วินาที |
ทดสอบบน NVIDIA H100 GPU
🔄 การแสดงผล O-Voxel ที่ปฏิวัติวงการ#
การแสดงผลแบบ iso-surface field แบบดั้งเดิมมีข้อจำกัดในการจัดการโครงสร้างที่ซับซ้อน แต่เทคโนโลยี O-Voxel สามารถก้าวข้ามข้อจำกัดเหล่านี้ได้:
- การจัดการพื้นผิวเปิด: ประมวลผลโครงสร้างที่ไม่ปิดสนิท เช่น เสื้อผ้าและใบไม้ ได้อย่างสมบูรณ์แบบ
- การรองรับรูปทรงเรขาคณิตที่ไม่เป็นแมนิโฟลด์: จัดการโทโพโลยีที่ซับซ้อนโดยไม่ต้องแปลงที่ยุ่งยาก
- การรักษาสภาพโครงสร้างภายใน: รักษา chi tiết ของโครงสร้างปิดล้อมภายในไว้อย่างสมบูรณ์
🎨 การรองรับวัสดุ PBR แบบเต็มรูปแบบ#
ต่างจากโมเดลที่สร้างเฉพาะสีพื้นฐาน TRELLIS.2 รองรับวัสดุ Physically-Based Rendering (PBR) ที่สมบูรณ์:
- สีพื้นฐาน
- ความหยาบ
- ความเป็นโลหะ
- ความทึบแสง
⚡ ไปป์ไลน์การประมวลผลที่เรียบง่าย#
TRELLIS.2 ปรับไปป์ไลน์การประมวลผลข้อมูลให้เหมาะสมสำหรับการแปลงที่รวดเร็วทันใจ:
- Textured Mesh → O-Voxel: <10 วินาที (CPU เดียว)
- O-Voxel → Textured Mesh: <100 มิลลิวินาที (CUDA)
นวัตกรรมสถาปัตยกรรมทางเทคนิค#
การเข้ารหัส Sparse 3D VAE#
โมเดลนี้ใช้ Sparse 3D Variational Autoencoder ที่มีการลดขนาดเชิงพื้นที่ 16 เท่า เพื่อเข้ารหัสเนื้อหา 3D ลงในพื้นที่แฝงขนาดกะทัดรัด ซึ่งเป็นการวางรากฐานสำหรับการสร้างในภายหลัง
สถาปัตยกรรมการสร้างแบบ DiT#
ใช้ Diffusion Transformers (DiT) มาตรฐานสำหรับการสร้างที่มีประสิทธิภาพ ซึ่งแสดงให้เห็นถึงศักยภาพอันทรงพลังของสถาปัตยกรรมแบบดั้งเดิมด้วยการแสดงผลแบบใหม่
แนวโน้มการใช้งาน#
ความก้าวหน้าทางเทคนิคของ TRELLIS.2 เปิดโอกาสใหม่ๆ สำหรับหลายสาขา:
- การพัฒนาเกม: การสร้างเนื้อหา 3D คุณภาพสูงอย่างรวดเร็ว
- Virtual Reality: การสร้างสภาพแวดล้อมที่สมจริงแบบเรียลไทม์
- การออกแบบอุตสาหกรรม: การสร้างต้นแบบและการแสดงภาพอย่างรวดเร็ว
- การผลิตภาพยนตร์: การสร้างเนื้อหาเทคนิคพิเศษอย่างมีประสิทธิภาพ
ระบบนิเวศโอเพนซอร์ส#
โครงการนี้สร้างขึ้นบนไลบรารีเฉพาะทางประสิทธิภาพสูงหลายรายการ:
- O-Voxel: ไลบรารีประมวลผลการแสดงผลหลัก
- FlexGEMM: การ convolution แบบ sparse ที่มีประสิทธิภาพโดยใช้ Triton
- CuMesh: ยูทิลิตี้การประมวลผล mesh ที่เร่งความเร็วด้วย CUDA
สรุป#
TRELLIS.2 แสดงถึงก้าวสำคัญในเทคโนโลยีการสร้าง 3D การแสดงผล O-Voxel ที่เป็นนวัตกรรมและสถาปัตยกรรมการสร้างที่มีประสิทธิภาพได้สร้างมาตรฐานใหม่สำหรับอุตสาหกรรม ด้วยการเปิดซอร์สโค้ดและโมเดลที่ฝึกอบรมไว้ล่วงหน้าอย่างสมบูรณ์ เทคโนโลยีนี้พร้อมที่จะเร่งการพัฒนาในแวดวงการสร้างสรรค์คอนเทนต์ 3D ทั้งหมด
สำหรับนักพัฒนาและนักวิจัย ตอนนี้เป็นเวลาที่เหมาะสมที่สุดในการสำรวจและใช้ประโยชน์จากเครื่องมืออันทรงพลังนี้ ไม่ว่าจะเป็นสำหรับการใช้งานเชิงพาณิชย์หรือการวิจัยทางวิชาการ TRELLIS.2 เปิดประตูใหม่สู่การสร้างเนื้อหา 3D คุณภาพสูงแบบอัตโนมัติ
ที่อยู่โครงการ: https://github.com/microsoft/TRELLIS.2 โมเดลที่ฝึกอบรมไว้ล่วงหน้า: https://huggingface.co/microsoft/TRELLIS.2-4B



