Sana video

Efficient Text-to-Video and Image-to-Video by NVIDIA NVLabs

Sana video przenosi wydajne, wysokiej jakości generowanie wideo z tekstu i obrazu do Twojej przeglądarki. Twórz spójne klipy 720p, 16 klatek na sekundę do jednej minuty z wydajnością opartą na badaniach. Wypróbuj Sana video na Story321 i szybko dostarczaj dopracowane treści ruchome.

Poznaj Sana video

Sana video to wydajny generator wideo oparty na dyfuzji od NVIDIA NVLabs, przeznaczony do generowania wideo z tekstu (T2V) i obrazu (I2V), obsługujący rozdzielczość do 720p, 16 klatek na sekundę i czas trwania do jednej minuty, z wiernością opartą na badaniach i spójnym ruchem ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [nvlabs.github.io](https://nvlabs.github.io/Sana/)).

Tekst na wideo (T2V)

Zamień język naturalny w żywy ruch. Sana video obsługuje narracje wielostylowe, płynne przejścia i spójne obiekty, tworząc wysokiej jakości sekwencje 720p przy 16 klatkach na sekundę ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).

Obraz na wideo (I2V)

Ożyw pojedynczą klatkę w dynamiczny klip. Zachowaj tożsamość i kompozycję, dodając realistyczny ruch, ruchy kamery i głębię sceny ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).

Wydajne, praktyczne działanie

Wygeneruj 5-sekundowy klip w około 60 sekund, lub ~29 sekund na RTX 5090 z optymalizacjami NVFP4 – wystarczająco wydajne do pętli iteracyjnych ([youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8)).

Open-source i oparte na badaniach

Zbudowane na rodzinie SANA (Linear Diffusion Transformer) z uznaniem ICLR 2025, plus kod open-source do eksploracji i rozszerzeń ([nvlabs.github.io](https://nvlabs.github.io/Sana/) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/) • [github.com](https://github.com/NVlabs/Sana)).

Jak używać na Story321

Wykonaj te kroki, aby uzyskać spójne wyniki dzięki Sana video.

Wybierz model

Wybierz Sana video z listy modeli.

Wybierz tryb

Użyj Tekst na wideo dla promptów lub Obraz na wideo, aby animować odniesienie.

Napisz prompt / ustaw odniesienie

Opisz obiekt, ruch, kamerę, czas; prześlij obraz dla I2V.

Ustaw czas trwania, rozdzielczość, klatki na sekundę

Wybierz do 60 sekund, 720p i 16 klatek na sekundę dla zrównoważonej jakości.

Dostosuj kontrolki

Dostosuj siłę ruchu, drgania kamery, proporcje i ziarno dla powtarzalności.

Generuj i dopracowuj

Wyświetl podgląd, przytnij i iteruj w krótkich klipach; rozszerz po zablokowaniu.

Wskazówki

•Iteruj przy długościach 3–5 sekund przed rozszerzeniem do 30–60 sekund.
•Utrzymuj nazwy obiektów, style i terminy obiektywów spójne w kolejnych uruchomieniach.
•Używaj wskazówek czasowych, takich jak „przytrzymaj 1s”, aby ustabilizować rytmy.
•Dla tożsamości I2V przesyłaj wyraźne, równomiernie oświetlone odniesienia.
•Organizuj zwycięskie prompty jako szablony dla Sana video.

Specyfikacje, takie jak 720p, 16 klatek na sekundę i do 1 minuty, odzwierciedlają aktualne publiczne notatki badawcze; zobacz strony projektu, aby uzyskać aktualizacje ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [github.com](https://github.com/NVlabs/Sana)).

Co możesz stworzyć za pomocą Sana video

Od zwiastunów marki po pętle samouczków, Sana video przyspiesza konceptualizację i ruch na poziomie produkcyjnym.

Zwiastuny premierowe

Wytnij 5–10-sekundowe ujęcia z kontrolowanymi ruchami kamery i spójnym brandingiem.

Wyjaśnienia produktów

Zademonstruj funkcje za pomocą czytelnych rytmów ruchu i czytelnych zbliżeń.

Momenty postaci

Animuj gesty maskotki, wyrazy twarzy i mikro-grę aktorską z jednego obrazu.

Filmowe ujęcia B-roll

Generuj stylizowane przejścia, ujęcia wprowadzające i ambientowe pętle.

Trendy w mediach społecznościowych

Twórz prototypy dynamicznych, zapętlonych klipów, które pasują do tempa platformy.

Edukacja i instrukcje

Pokaż ruch krok po kroku z przejrzystością kamery i strukturą czasową.

Często zadawane pytania

Odpowiedzi na typowe pytania dotyczące konfiguracji i przepływu pracy Sana video.

Jakie są aktualne limity wyjściowe?

Do rozdzielczości 720p, 16 klatek na sekundę i 1 minuta czasu trwania na klip, zgodnie z publiczną dokumentacją ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).

Jak szybko przebiega generowanie?

Około 60 sekund dla 5-sekundowego klipu lub ~29 sekund na RTX 5090 z optymalizacjami NVFP4 ([youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8)).

Czy model jest open-source lub oparty na badaniach?

Kod i zasoby badawcze są dostępne do eksploracji ([github.com](https://github.com/NVlabs/Sana) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/)).

Jaka jest różnica między T2V a I2V?

T2V tworzy ruch z tekstu; I2V animuje dostarczony obraz, zachowując tożsamość i układ.

Czy mogę kontrolować zachowanie kamery?

Tak – użyj obiektywu, typu ujęcia i terminów ruchu (np. „ujęcie z niskiego śledzenia”, „delikatny najazd”) w prompcie.

Czy mogę używać wyników komercyjnie?

Przed komercyjnym użyciem zapoznaj się z licencją repozytorium i wszelkimi warunkami stron trzecich ([github.com](https://github.com/NVlabs/Sana)).

Zacznij tworzyć z Sana video

Twórz prototypy, iteruj i publikuj przekonujące treści ruchome – Sana video na Story321 zapewnia szybkość, spójność i jakość na poziomie badań.

Wydajność i specyfikacje są oparte na publicznych materiałach i mogą ewoluować wraz z nowymi wydaniami ([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)).