Sana video : Efficient Text-to-Video and Image-to-Video by NVIDIA NVLabs
Sana video นำเสนอการสร้างวิดีโอจากข้อความและรูปภาพที่มีประสิทธิภาพและคุณภาพสูงมาสู่เบราว์เซอร์ของคุณ สร้างคลิป 720p, 16 fps ที่สอดคล้องกันได้นานถึงหนึ่งนาทีด้วยประสิทธิภาพที่ได้รับการสนับสนุนจากการวิจัย ลองใช้ Sana video บน Story321 และส่งเนื้อหาการเคลื่อนไหวที่ขัดเกลาได้อย่างรวดเร็ว
ทำไมต้องเลือก Sana video บน Story321
Story321 จับคู่ Sana video กับ UI ที่คล่องตัว ค่าเริ่มต้นที่สอดคล้องกัน และการตั้งค่าแบบเวอร์ชัน เพื่อให้คุณสามารถมุ่งเน้นไปที่ทิศทางสร้างสรรค์ ไม่ใช่การประปาหรือการปรับแต่ง GPU ขนาดเล็ก
การเคลื่อนไหวที่สอดคล้องกันและ ‘World Sim’
เพลิดเพลินกับวัตถุที่มั่นคง สัญญาณทางฟิสิกส์ที่สมจริง และความต่อเนื่องของฉากเพื่อการเคลื่อนไหวและการเคลื่อนกล้องที่น่าเชื่อถือ (nvlabs.github.io).
เอาต์พุตขนาดพอเหมาะเพื่อความเร็ว
720p, 16 fps, สูงสุด 1 นาที ซึ่งเป็นความสมดุลที่เหมาะสมของคุณภาพและความเร็วในการทำซ้ำสำหรับเวิร์กโฟลว์สร้างสรรค์ส่วนใหญ่ (nvlabs.github.io).
การผสานรวมแบบ Workflow-first
การรันเป็นชุด เทมเพลตที่ตั้งไว้ล่วงหน้า ค่าเริ่มต้นที่ปลอดภัย และการลองใหม่ที่รวดเร็วช่วยลดแรงเสียดทานจากแนวคิดไปสู่การส่งออก
Sana video บน Story321 สร้างขึ้นสำหรับผู้สร้างที่ต้องการผลลัพธ์การเคลื่อนไหวที่รวดเร็ว คาดการณ์ได้ และมีคุณภาพสูง
พบกับ Sana video
Sana video คือเครื่องมือสร้างวิดีโอแบบ diffusion ที่มีประสิทธิภาพของ NVIDIA NVLabs สำหรับการสร้างวิดีโอจากข้อความ (T2V) และรูปภาพ (I2V) รองรับความละเอียดสูงสุด 720p, 16 fps และระยะเวลาสูงสุดหนึ่งนาที พร้อมความเที่ยงตรงและการเคลื่อนไหวที่สอดคล้องกันซึ่งได้รับการสนับสนุนจากการวิจัย (nvlabs.github.io • nvlabs.github.io).
ข้อความเป็นวิดีโอ (T2V)
เปลี่ยนภาษาธรรมชาติเป็นการเคลื่อนไหวที่สดใส Sana video รองรับเรื่องราวหลายสไตล์ การเปลี่ยนภาพที่ราบรื่น และวัตถุที่สอดคล้องกัน สร้างลำดับภาพ 720p คุณภาพสูงที่ 16 fps (nvlabs.github.io).
รูปภาพเป็นวิดีโอ (I2V)
สร้างภาพเคลื่อนไหวจากเฟรมเดียวให้เป็นคลิปไดนามิก รักษาเอกลักษณ์และองค์ประกอบ พร้อมเพิ่มการเคลื่อนไหวที่สมจริง การเคลื่อนกล้อง และความลึกของฉาก (nvlabs.github.io).
รันไทม์ที่มีประสิทธิภาพและใช้งานได้จริง
สร้างคลิป 5 วินาทีในเวลาประมาณ 60 วินาที หรือ ~29 วินาทีบน RTX 5090 ด้วยการปรับปรุง NVFP4 ซึ่งมีประสิทธิภาพเพียงพอสำหรับวงจรการทำซ้ำ (youtube.com).
โอเพนซอร์สและได้รับการสนับสนุนจากการวิจัย
สร้างขึ้นบนตระกูล SANA (Linear Diffusion Transformer) ที่ได้รับการยอมรับจาก ICLR 2025 พร้อมโค้ดโอเพนซอร์สสำหรับการสำรวจและส่วนขยาย (nvlabs.github.io • research.nvidia.com • github.com).
สิ่งที่คุณสามารถสร้างได้ด้วย Sana video
ตั้งแต่ทีเซอร์แบรนด์ไปจนถึงลูปบทช่วยสอน Sana video เร่งการสร้างแนวคิดและการเคลื่อนไหวระดับการผลิต
ทีเซอร์เปิดตัว
ตัดภาพฮีโร่ 5–10 วินาทีด้วยการเคลื่อนกล้องที่ควบคุมได้และการสร้างแบรนด์ที่สอดคล้องกัน
คำอธิบายผลิตภัณฑ์
สาธิตคุณสมบัติด้วยจังหวะการเคลื่อนไหวที่อ่านง่ายและภาพระยะใกล้ที่อ่านง่าย
ช่วงเวลาของตัวละคร
สร้างภาพเคลื่อนไหวท่าทาง มาสคอต การแสดงออก และการแสดงขนาดเล็กจากภาพเดียว
B‑roll ภาพยนตร์
สร้างการเปลี่ยนภาพที่มีสไตล์ ภาพรวม และลูปบรรยากาศ
เทรนด์โซเชียล
สร้างคลิปที่กระชับและวนซ้ำได้ที่ตรงกับจังหวะของแพลตฟอร์ม
การศึกษาและวิธีการ
แสดงการเคลื่อนไหวทีละขั้นตอนด้วยความชัดเจนของกล้องและโครงสร้างเวลา
การป้อนพรอมต์ Sana video อย่างมืออาชีพ
ความตั้งใจที่ชัดเจนและสัญญาณบอกเวลาช่วยให้ Sana video มอบการเคลื่อนไหวและสไตล์ที่สอดคล้องกัน
องค์ประกอบสำคัญของพรอมต์ที่แข็งแกร่ง
วัตถุ + ทิศทางศิลปะ
กำหนดว่าใคร/อะไร พร้อมสุนทรียภาพ ตั้งชื่อลักษณะตัวละคร วัสดุ และจุดยึดสไตล์
การกระทำ + กล้อง
อธิบายคำกริยาและภาษาของกล้องเพื่อล็อคการเคลื่อนไหวและการจัดเฟรม
สภาพแวดล้อม + อารมณ์
ระบุพื้นที่ แสง และบรรยากาศเพื่อรักษาเสถียรภาพของรูปลักษณ์ข้ามเฟรม
จังหวะเวลา
เพิ่มจังหวะเริ่มต้น/กลาง/สิ้นสุดเพื่อนำทางการดำเนินไปในคลิปสั้นๆ
I2V อ้างอิงก่อน
สำหรับรูปภาพเป็นวิดีโอ บอกว่าอะไรที่ต้องรักษาไว้เทียบกับสิ่งที่ต้องสร้างภาพเคลื่อนไหว
เคล็ดลับมือโปร
ชัดเจน ไม่ใช่เยิ่นเย้อ
การใช้คำที่สั้นและเป็นรูปธรรมมีประสิทธิภาพเหนือกว่าข้อความที่ยาวและไพเราะสำหรับการควบคุมการเคลื่อนไหว
ผูกการเคลื่อนไหวกับเวลา
ใช้หน่วยวินาที (“ค้างไว้ 1 วินาที”, “เพิ่มขึ้นในช่วง 2 วินาที”) เพื่อให้การจับเวลาสอดคล้องกับความยาวคลิป
ทำซ้ำในคลิปสั้นๆ
ปรับแต่งใน 3–5 วินาที; เพิ่มขนาดหรือขยายหลังจากที่ Sana video ตรงกับความตั้งใจของคุณ
ตัวอย่างการปรับปรุงพรอมต์
"สุนัขจิ้งจอกวิ่งในป่า"
"สุนัขจิ้งจอกแดงวิ่งไปตามทางเดินที่มีมอส; กล้องคงที่ที่ความสูงของสุนัขจิ้งจอก; หมอกยามเช้า; แสงแดดส่องผ่านต้นสน; เริ่มต้นกว้าง กลางไล่ สิ้นสุดระยะใกล้ — Sana video ถือการจัดเฟรมและสัญญาณการเคลื่อนไหว"
"รถสปอร์ตบนถนนชายฝั่ง"
"รถสปอร์ตสีแดงวินเทจ, ภาพติดตามต่ำ, แสงแฟลร์ของเลนส์, หน้าผามหาสมุทร; ม้วนเรียบ; ผ่านสองโค้ง; สิ้นสุดที่ทิวทัศน์หน้าผา — Sana video รักษาความเร็วและองค์ประกอบ"
วิธีใช้บน Story321
ทำตามขั้นตอนเหล่านี้เพื่อสร้างผลลัพธ์ที่สอดคล้องกันด้วย Sana video
เลือกรุ่น
เลือก Sana video จากรายการรุ่น
เลือกโหมด
ใช้ข้อความเป็นวิดีโอสำหรับพรอมต์ หรือรูปภาพเป็นวิดีโอเพื่อสร้างภาพเคลื่อนไหวอ้างอิง
เขียนพรอมต์ / ตั้งค่าอ้างอิง
อธิบายวัตถุ การเคลื่อนไหว กล้อง เวลา; อัปโหลดรูปภาพสำหรับ I2V
ตั้งค่าระยะเวลา ความละเอียด fps
เลือกสูงสุด 60 วินาที, 720p และ 16 fps เพื่อคุณภาพที่สมดุล
ปรับแต่งการควบคุม
ปรับความแรงของการเคลื่อนไหว การสั่นของกล้อง อัตราส่วนภาพ และ seed เพื่อความสามารถในการทำซ้ำ
สร้างและปรับแต่ง
ดูตัวอย่าง ตัดแต่ง และทำซ้ำในคลิปสั้นๆ; ขยายเมื่อล็อคแล้ว
เคล็ดลับ
- •ทำซ้ำที่ความยาว 3–5 วินาทีก่อนขยายเป็น 30–60 วินาที
- •รักษาสื่อ วัตถุ สไตล์ และคำศัพท์เกี่ยวกับเลนส์ให้สอดคล้องกันในการรัน
- •ใช้สัญญาณบอกเวลาเช่น “ค้างไว้ 1 วินาที” เพื่อรักษาเสถียรภาพของจังหวะ
- •สำหรับเอกลักษณ์ I2V ให้อัปโหลดข้อมูลอ้างอิงที่คมชัดและมีแสงสว่างสม่ำเสมอ
- •จัดระเบียบพรอมต์ที่ชนะเป็นเทมเพลตสำหรับ Sana video
ข้อมูลจำเพาะเช่น 720p, 16 fps และสูงสุด 1 นาทีสะท้อนถึงบันทึกการวิจัยสาธารณะปัจจุบัน ดูหน้าโครงการสำหรับการอัปเดต ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [github.com](https://github.com/NVlabs/Sana)).
คำถามที่พบบ่อย
คำตอบสำหรับคำถามทั่วไปเกี่ยวกับการตั้งค่าและเวิร์กโฟลว์ Sana video
เริ่มสร้างสรรค์ด้วย Sana video
สร้างต้นแบบ ทำซ้ำ และเผยแพร่เนื้อหาการเคลื่อนไหวที่น่าสนใจ Sana video บน Story321 มอบความเร็ว ความสอดคล้อง และคุณภาพระดับการวิจัยให้กับคุณ
ประสิทธิภาพและข้อมูลจำเพาะขึ้นอยู่กับเอกสารสาธารณะและอาจมีการพัฒนาไปพร้อมกับการเปิดตัวใหม่ ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).