16 grudnia Alibaba oficjalnie zaprezentowała nową generację modeli Tongyi Wanxiang 2.6. Jest to pierwszy w Chinach model generowania wideo, który obsługuje funkcję odgrywania ról, a długość pojedynczego wygenerowanego wideo osiąga wiodące w kraju 15 sekund.
Integrując wiele funkcji, takich jak synchronizacja audio-wideo, generowanie wieloujęciowe i tworzenie wideo sterowane dźwiękiem, Wan 2.6 jest opisywany przez jego twórców jako jeden z najbardziej wszechstronnych modeli generowania wideo pod względem globalnego zakresu funkcji.
Ta aktualizacja to nie tylko stopniowe ulepszenie pojedynczej możliwości; zamiast tego wprowadzono jednocześnie pięć nowych modeli, w tym tekst-na-wideo, obraz-na-wideo i tekst-na-obraz, obejmujących kluczowe aspekty od obrazu do generowania wideo. Oznacza to, że Wan 2.6 może zapewnić kompleksowe wsparcie zarówno dla profesjonalnej produkcji filmowej, jak i codziennego tworzenia obrazów.
01 Trzy przełomy: Kluczowe możliwości Wan 2.6#
Przełom Wan 2.6 polega nie tylko na zwiększonej długości generowania, ale także na jego wielofunkcyjnej integracji i profesjonalnej jakości wyjściowej.
W oparciu o kompleksowe ulepszenia w jakości wideo, efektach dźwiękowych i przestrzeganiu instrukcji, nowa wersja wprowadza funkcje odgrywania ról i kontroli ujęć, co czyni ją najbardziej wszechstronnym modelem generowania wideo w Chinach.
W porównaniu do Wan 2.5 wydanego we wrześniu, wersja 2.6 osiągnęła znaczące ulepszenia w wielu wymiarach. Po zajęciu pierwszego miejsca w Chinach pod względem generowania obrazu na wideo na autorytatywnym benchmarku LMArena, wersja 2.6 jeszcze bardziej umacnia tę przewagę.
02 Odgrywanie ról: Zwykli ludzie mogą zagrać w swoich własnych filmach#
Najbardziej rzucającą się w oczy cechą Wan 2.6 jest jego pionierska w Chinach zdolność do odgrywania ról. Ta funkcja pozwala przeciętnym użytkownikom na dostarczanie znakomitych występów w materiałach filmowych o kinowej jakości.
Użytkownik musi jedynie przesłać osobiste wideo i wprowadzić tekstowy opis scenariusza. Wan 2.6 może następnie szybko poradzić sobie z zadaniami, takimi jak projektowanie ujęć, gra aktorska i dubbing, generując kompletny film krótkometrażowy ze spójną narracją i kinematografią na poziomie filmowym w zaledwie kilka minut, pomagając użytkownikom spełnić ich marzenie o byciu gwiazdą filmową.
Technicznie, Tongyi Wanxiang zintegrował wiele innowacyjnych technologii z architekturą modelu. Wykonuje wielomodalne wspólne modelowanie i uczenie się na wejściowym filmie referencyjnym, analizując cechy sekwencyjne w czasie, takie jak emocje podmiotu, postawa i wielokątne cechy wizualne, a także wydobywając cechy akustyczne, takie jak barwa i tempo mowy.
03 Kontrola ujęć: Automatyczne generowanie narracji wieloujęciowych#
Zdolność kontroli ujęć Wan 2.6 odróżnia go od zwykłych narzędzi do generowania wideo. Ta funkcja może przekształcić proste podpowiedzi użytkownika w scenariusze wieloujęciowe, tworząc spójne filmy narracyjne składające się z wielu ujęć kamery.
Wykorzystując wysokopoziomowe rozumienie semantyczne, Tongyi Wanxiang może konstruować oryginalne wejście w profesjonalne segmenty wieloujęciowe z kompletną fabułą i napięciem narracyjnym. Podczas płynnego przełączania ujęć utrzymuje ujednolicone modelowanie głównego tematu, układu sceny i atmosfery otoczenia, zapewniając wysoką spójność treści, rytmu i nastroju w całym filmie.
Ta funkcja umożliwia Wan 2.6 rozumienie i wykonywanie złożonych instrukcji języka filmowego, wykonując pracę profesjonalnych fotografów i montażystów za pomocą jednego polecenia.
04 Napęd wieloaudio: Unikalna globalna innowacja#
Wan 2.6 jest również uznawany za model generowania wideo o najbardziej wszechstronnej globalnej funkcjonalności. Zwraca się uwagę na włączenie funkcji "napędu wieloaudio", gdzie wiele ścieżek audio może działać jako "sygnały napędowe" wpływające na działania postaci, ruchy ust i tempo ujęć, wykraczając poza prosty dubbing postprodukcyjny dla bardziej naturalnej synchronizacji audio-wideo.
Ten techniczny wyróżnik pozwala Wan 2.6 osiągnąć bardziej realistyczne efekty synchronizacji audio-wideo. Wykonując wielomodalne wspólne modelowanie na filmie referencyjnym i jednocześnie wydobywając czasowe cechy wizualne i cechy akustyczne, model osiąga pełną sensoryczną migrację spójności obrazu i dźwięku podczas procesu generowania.
05 Praktyczne scenariusze zastosowań: Od osobistej rozrywki po profesjonalne tworzenie#
Pojawienie się Wan 2.6 jeszcze bardziej obniży barierę dla tworzenia wideo i rozszerzy granice zastosowań generowania wideo AI.
Dla indywidualnych użytkowników Wan 2.6 oferuje bardzo atrakcyjne doświadczenie rozrywkowe. Po prostu przesyłając osobiste wideo i wprowadzając tekstową podpowiedź, użytkownicy mogą generować kreatywne filmy krótkometrażowe z sobą w roli głównej, takie jak klipy science fiction lub thrillery.
W profesjonalnej dziedzinie twórczej, takiej jak projektowanie reklam i produkcja krótkich dramatów, Wan 2.6 może generować kompletne narracyjne filmy krótkometrażowe na podstawie sekwencyjnych podpowiedzi.
Na przykład, wprowadzenie podpowiedzi opisującej koncepcję reklamy pozwala Wan 2.6 na wyprodukowanie filmu reklamowego z postaciami i produktami, zachowując spójność kluczowych informacji, takich jak temat i scena, w wielu zmianach ujęć.
Obecnie rodzina modeli Wanxiang obsługuje ponad 10 różnych możliwości tworzenia wizualnego, w tym tekst-na-obraz, edycja obrazu, tekst-na-wideo, obraz-na-wideo i odgrywanie ról. Jest już szeroko stosowany w obszarach takich jak serie komiksów AI, projektowanie reklam i tworzenie krótkich filmów.
06 Jak uzyskać dostęp: Wygodne doświadczenie wieloplatformowe#
Wan 2.6 jest teraz dostępny na wielu platformach, oferując użytkownikom różnorodne możliwości dostępu:
- Oficjalna strona internetowa Tongyi Wanxiang: Indywidualni użytkownicy mogą bezpośrednio doświadczyć podstawowych funkcji za darmo na oficjalnej stronie internetowej.
- Platforma Alibaba Cloud Bailian: Zapewnia interfejsy API dla przedsiębiorstw i programistów do integracji z własnymi aplikacjami.
- Platforma story321.com: Użytkownicy mogą również korzystać z Wan 2.6 na tej platformie skupionej na generowaniu historii AI. Jest ona szczególnie zoptymalizowana do generowania treści narracyjnych, dzięki czemu nadaje się do tworzenia krótkich historii wideo, animacji i podobnych treści.
Dla profesjonalnych użytkowników i przedsiębiorstw zaleca się dostęp do usług API za pośrednictwem platformy Alibaba Cloud Bailian w celu uzyskania bardziej stabilnej wydajności i wsparcia. Dla indywidualnych użytkowników i entuzjastów twórczości oficjalna strona internetowa Wanxiang i story321.com zapewniają możliwości doświadczenia bez progu wejścia. Story321.com jest idealnym wyborem, szczególnie dla użytkowników chcących tworzyć spójne treści fabularne.
Pojawienie się Wan 2.6 oznacza, że technologia generowania wideo AI ewoluowała od prostego tworzenia sekwencji obrazów do nowego etapu kompleksowego tworzenia filmowego. Nie tylko obniża próg dla profesjonalnej produkcji wideo, ale także umożliwia każdemu wygodne wyrażanie swojej kreatywności, realizując wizję, że "każdy może być reżyserem".
Obecnie Wan 2.6 jest dostępny na Alibaba Cloud Bailian, oficjalnej stronie internetowej Tongyi Wanxiang i platformie story321.com. Każdy może bezpośrednio go wypróbować na tych platformach, a użytkownicy korporacyjni mogą również wywoływać API modelu za pośrednictwem Alibaba Cloud Bailian. Zgłoszono, że aplikacja Qianwen również wkrótce uruchomi model, oferując bogatsze sposoby interakcji z nim.



