Efficient Text-to-Video and Image-to-Video by NVIDIA NVLabs
Sana video นำเสนอการสร้างวิดีโอจากข้อความและรูปภาพที่มีประสิทธิภาพและคุณภาพสูงมาสู่เบราว์เซอร์ของคุณ สร้างคลิป 720p, 16 fps ที่สอดคล้องกันได้นานถึงหนึ่งนาทีด้วยประสิทธิภาพที่ได้รับการสนับสนุนจากการวิจัย ลองใช้ Sana video บน Story321 และส่งเนื้อหาการเคลื่อนไหวที่ขัดเกลาได้อย่างรวดเร็ว

Sana video คือเครื่องมือสร้างวิดีโอแบบ diffusion ที่มีประสิทธิภาพของ NVIDIA NVLabs สำหรับการสร้างวิดีโอจากข้อความ (T2V) และรูปภาพ (I2V) รองรับความละเอียดสูงสุด 720p, 16 fps และระยะเวลาสูงสุดหนึ่งนาที พร้อมความเที่ยงตรงและการเคลื่อนไหวที่สอดคล้องกันซึ่งได้รับการสนับสนุนจากการวิจัย ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [nvlabs.github.io](https://nvlabs.github.io/Sana/)).
เปลี่ยนภาษาธรรมชาติเป็นการเคลื่อนไหวที่สดใส Sana video รองรับเรื่องราวหลายสไตล์ การเปลี่ยนภาพที่ราบรื่น และวัตถุที่สอดคล้องกัน สร้างลำดับภาพ 720p คุณภาพสูงที่ 16 fps ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).
สร้างภาพเคลื่อนไหวจากเฟรมเดียวให้เป็นคลิปไดนามิก รักษาเอกลักษณ์และองค์ประกอบ พร้อมเพิ่มการเคลื่อนไหวที่สมจริง การเคลื่อนกล้อง และความลึกของฉาก ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).
สร้างคลิป 5 วินาทีในเวลาประมาณ 60 วินาที หรือ ~29 วินาทีบน RTX 5090 ด้วยการปรับปรุง NVFP4 ซึ่งมีประสิทธิภาพเพียงพอสำหรับวงจรการทำซ้ำ ([youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8)).
สร้างขึ้นบนตระกูล SANA (Linear Diffusion Transformer) ที่ได้รับการยอมรับจาก ICLR 2025 พร้อมโค้ดโอเพนซอร์สสำหรับการสำรวจและส่วนขยาย ([nvlabs.github.io](https://nvlabs.github.io/Sana/) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/) • [github.com](https://github.com/NVlabs/Sana)).
ทำตามขั้นตอนเหล่านี้เพื่อสร้างผลลัพธ์ที่สอดคล้องกันด้วย Sana video
เลือก Sana video จากรายการรุ่น
ใช้ข้อความเป็นวิดีโอสำหรับพรอมต์ หรือรูปภาพเป็นวิดีโอเพื่อสร้างภาพเคลื่อนไหวอ้างอิง
อธิบายวัตถุ การเคลื่อนไหว กล้อง เวลา; อัปโหลดรูปภาพสำหรับ I2V
เลือกสูงสุด 60 วินาที, 720p และ 16 fps เพื่อคุณภาพที่สมดุล
ปรับความแรงของการเคลื่อนไหว การสั่นของกล้อง อัตราส่วนภาพ และ seed เพื่อความสามารถในการทำซ้ำ
ดูตัวอย่าง ตัดแต่ง และทำซ้ำในคลิปสั้นๆ; ขยายเมื่อล็อคแล้ว
ข้อมูลจำเพาะเช่น 720p, 16 fps และสูงสุด 1 นาทีสะท้อนถึงบันทึกการวิจัยสาธารณะปัจจุบัน ดูหน้าโครงการสำหรับการอัปเดต ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [github.com](https://github.com/NVlabs/Sana)).
ตั้งแต่ทีเซอร์แบรนด์ไปจนถึงลูปบทช่วยสอน Sana video เร่งการสร้างแนวคิดและการเคลื่อนไหวระดับการผลิต
ตัดภาพฮีโร่ 5–10 วินาทีด้วยการเคลื่อนกล้องที่ควบคุมได้และการสร้างแบรนด์ที่สอดคล้องกัน
สาธิตคุณสมบัติด้วยจังหวะการเคลื่อนไหวที่อ่านง่ายและภาพระยะใกล้ที่อ่านง่าย
สร้างภาพเคลื่อนไหวท่าทาง มาสคอต การแสดงออก และการแสดงขนาดเล็กจากภาพเดียว
สร้างการเปลี่ยนภาพที่มีสไตล์ ภาพรวม และลูปบรรยากาศ
สร้างคลิปที่กระชับและวนซ้ำได้ที่ตรงกับจังหวะของแพลตฟอร์ม
แสดงการเคลื่อนไหวทีละขั้นตอนด้วยความชัดเจนของกล้องและโครงสร้างเวลา
คำตอบสำหรับคำถามทั่วไปเกี่ยวกับการตั้งค่าและเวิร์กโฟลว์ Sana video
ความละเอียดสูงสุด 720p, 16 fps และระยะเวลา 1 นาทีต่อคลิป ตามเอกสารสาธารณะ ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).
ประมาณ 60 วินาทีสำหรับคลิป 5 วินาที หรือ ~29 วินาทีบน RTX 5090 ด้วยการปรับปรุง NVFP4 ([youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8)).
โค้ดและแหล่งข้อมูลการวิจัยมีให้สำหรับการสำรวจ ([github.com](https://github.com/NVlabs/Sana) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/)).
T2V สร้างการเคลื่อนไหวจากข้อความ; I2V สร้างภาพเคลื่อนไหวจากภาพที่ให้มาพร้อมรักษารูปหน้าและเลย์เอาต์
ได้—ใช้เลนส์ ประเภทช็อต และคำศัพท์เกี่ยวกับการเคลื่อนไหว (เช่น “ภาพติดตามต่ำ”, “การดอลลี่อินอย่างนุ่มนวล”) ในพรอมต์
ตรวจสอบใบอนุญาตของที่เก็บและข้อกำหนดของบุคคลที่สามก่อนใช้งานในเชิงพาณิชย์ ([github.com](https://github.com/NVlabs/Sana)).
สร้างต้นแบบ ทำซ้ำ และเผยแพร่เนื้อหาการเคลื่อนไหวที่น่าสนใจ Sana video บน Story321 มอบความเร็ว ความสอดคล้อง และคุณภาพระดับการวิจัยให้กับคุณ
ประสิทธิภาพและข้อมูลจำเพาะขึ้นอยู่กับเอกสารสาธารณะและอาจมีการพัฒนาไปพร้อมกับการเปิดตัวใหม่ ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).