Am 16. Dezember veröffentlichte Alibaba offiziell die neue Tongyi Wanxiang 2.6 Modellreihe. Es ist das erste Videogenerierungsmodell in China, das eine Rollenspielfunktion unterstützt, wobei die Länge einer einzelnen Videogenerierung führende 15 Sekunden im Inland erreicht.
Wan 2.6 integriert mehrere Funktionen wie audiovisuelle Synchronisation, Multi-Shot-Generierung und Audio-gesteuerte Videoerstellung und wird von seinen Entwicklern als eines der umfassendsten Videogenerierungsmodelle in Bezug auf die globale Funktionsabdeckung beschrieben.
Dieses Update ist nicht nur eine inkrementelle Verbesserung einer einzelnen Fähigkeit; stattdessen wurden fünf neue Modelle gleichzeitig auf den Markt gebracht, darunter Text-zu-Video, Bild-zu-Video und Text-zu-Bild, die wichtige Aspekte von der Bild- bis zur Videogenerierung abdecken. Dies bedeutet, dass Wan 2.6 sowohl professionelle Filmproduktionen als auch alltägliche Bilderstellung umfassend unterstützen kann.
01 Drei Durchbrüche: Die Kernkompetenzen von Wan 2.6#
Der Durchbruch von Wan 2.6 liegt nicht nur in der erhöhten Generierungslänge, sondern auch in seiner multifunktionalen Integration und professionellen Ausgabequalität.
Aufbauend auf umfassenden Verbesserungen in Bezug auf Videoqualität, Soundeffekte und Befolgung von Anweisungen, führt die neue Version Rollenspiel- und Shot-Control-Funktionen ein, was sie zum funktionsreichsten Videogenerierungsmodell in China macht.
Verglichen mit dem im September veröffentlichten Wan 2.5 hat Version 2.6 in mehreren Dimensionen deutliche Verbesserungen erzielt. Nachdem es bereits den ersten Platz in China für die Bild-zu-Video-Generierung auf dem maßgeblichen LMArena-Benchmark belegt hat, baut die Version 2.6 diesen Vorsprung noch weiter aus.
02 Rollenspiel: Gewöhnliche Menschen können in ihren eigenen Filmen mitspielen#
Das auffälligste Merkmal von Wan 2.6 ist seine bahnbrechende Rollenspielfähigkeit in China. Diese Funktion ermöglicht es Durchschnittsnutzern, herausragende Leistungen in Filmmaterial in Kinoqualität zu erbringen.
Ein Benutzer muss lediglich ein persönliches Video hochladen und eine Textaufforderung eingeben, die ein Szenario beschreibt. Wan 2.6 kann dann schnell Aufgaben wie Shot-Design, Charakterschauspielerei und Synchronisation übernehmen und in nur wenigen Minuten einen kompletten Kurzfilm mit kohärenter Erzählung und Kinematographie in Filmqualität erstellen, wodurch Benutzer ihren Traum verwirklichen können, ein Filmstar zu sein.
Technisch gesehen hat Tongyi Wanxiang mehrere innovative Technologien in die Modellarchitektur integriert. Es führt eine multimodale gemeinsame Modellierung und ein gemeinsames Lernen auf dem eingegebenen Referenzvideo durch und analysiert zeitlich aufeinanderfolgende Merkmale wie Subjektemotionen, Körperhaltung und visuelle Merkmale aus mehreren Winkeln, während gleichzeitig akustische Merkmale wie Klangfarbe und Sprechgeschwindigkeit extrahiert werden.
03 Shot Control: Automatisches Generieren von Multi-Shot-Erzählungen#
Die Shot-Control-Funktion von Wan 2.6 unterscheidet es von gewöhnlichen Videogenerierungstools. Diese Funktion kann einfache Benutzeraufforderungen in Multi-Shot-Skripte umwandeln und kohärente narrative Videos erstellen, die aus mehreren Kameraeinstellungen bestehen.
Durch die Nutzung eines hochrangigen semantischen Verständnisses kann Tongyi Wanxiang die ursprüngliche Eingabe in professionelle Multi-Shot-Segmente mit vollständigen Handlungssträngen und erzählerischer Spannung umwandeln. Während des nahtlosen Umschaltens von Aufnahmen wird eine einheitliche Modellierung des Kernsubjekts, des Szenenlayouts und der Umgebungsatmosphäre beibehalten, wodurch eine hohe Konsistenz in Bezug auf Inhalt, Rhythmus und Stimmung im gesamten Video gewährleistet wird.
Diese Funktion ermöglicht es Wan 2.6, komplexe filmische Sprachanweisungen zu verstehen und auszuführen und die Arbeit professioneller Fotografen und Redakteure mit einem einzigen Befehl zu erledigen.
04 Multi-Audio Drive: Eine einzigartige globale Innovation#
Wan 2.6 gilt auch als ein Videogenerierungsmodell mit der umfassendsten globalen Funktionalität. Es ist bekannt für die Integration einer "Multi-Audio-Drive"-Funktion, bei der mehrere Audiospuren als "Treibersignale" fungieren können, die Charakteraktionen, Mundbewegungen und das Shot-Pacing beeinflussen und über einfache Postproduktionssynchronisation für eine natürlichere audiovisuelle Synchronisation hinausgehen.
Dieses technische Highlight ermöglicht es Wan 2.6, realistischere audio-visuelle Synchronisationseffekte zu erzielen. Durch die Durchführung einer multimodalen gemeinsamen Modellierung des Referenzvideos und die gleichzeitige Extraktion von zeitlichen visuellen Merkmalen und akustischen Merkmalen erzielt das Modell eine vollständige sensorische Konsistenzmigration von Bild und Ton während des Generierungsprozesses.
05 Praktische Anwendungsszenarien: Von persönlicher Unterhaltung bis hin zu professioneller Erstellung#
Das Aufkommen von Wan 2.6 wird die Hürde für die Videoerstellung weiter senken und die Anwendungsgrenzen der KI-Videogenerierung erweitern.
Für einzelne Benutzer bietet Wan 2.6 ein äußerst attraktives Unterhaltungserlebnis. Durch einfaches Hochladen eines persönlichen Videos und Eingabe einer Textaufforderung können Benutzer kreative Kurzfilme mit sich selbst in der Hauptrolle erstellen, z. B. Science-Fiction- oder Spannungsclips.
Im professionellen Erstellungsbereich, wie z. B. Werbedesign und Kurzfilmerstellung, kann Wan 2.6 vollständige narrative Kurzfilme basierend auf sequenziellen Eingabeaufforderungen erstellen.
Wenn Sie beispielsweise eine Eingabeaufforderung eingeben, die ein Werbekonzept beschreibt, kann Wan 2.6 ein Werbevideo mit Charakteren und Produkten erstellen, wobei die Konsistenz wichtiger Informationen wie Subjekt und Szene über mehrere Shot-Änderungen hinweg erhalten bleibt.
Derzeit unterstützt die Wanxiang-Modellfamilie mehr als 10 verschiedene visuelle Erstellungsfunktionen, darunter Text-zu-Bild, Bildbearbeitung, Text-zu-Video, Bild-zu-Video und Rollenspiele. Es wird bereits in Bereichen wie KI-Comic-Serien, Werbedesign und Kurzvideoerstellung eingesetzt.
06 So greifen Sie zu: Komfortables Multi-Plattform-Erlebnis#
Wan 2.6 ist jetzt auf mehreren Plattformen verfügbar und bietet Benutzern vielfältige Möglichkeiten für den Zugriff:
- Offizielle Tongyi Wanxiang-Website: Einzelne Benutzer können grundlegende Funktionen kostenlos direkt auf der offiziellen Website erleben.
- Alibaba Cloud Bailian Platform: Bietet API-Schnittstellen für Unternehmen und Entwickler zur Integration in ihre eigenen Anwendungen.
- story321.com Platform: Benutzer können Wan 2.6 auch auf dieser Plattform nutzen, die sich auf die KI-Geschichtenerstellung konzentriert. Es ist besonders für die Generierung von narrativen Inhalten optimiert und eignet sich für die Erstellung von Kurzvideogeschichten, Animationen und ähnlichen Inhalten.
Für professionelle Benutzer und Unternehmen wird der Zugriff auf die API-Dienste über die Alibaba Cloud Bailian-Plattform für eine stabilere Leistung und Unterstützung empfohlen. Für einzelne Benutzer und kreative Enthusiasten bieten die offizielle Wanxiang-Website und story321.com Möglichkeiten für ein schwellenfreies Erlebnis. Story321.com ist eine ideale Wahl, insbesondere für Benutzer, die zusammenhängende Story-Inhalte erstellen möchten.
Die Ankunft von Wan 2.6 bedeutet, dass sich die KI-Videogenerierungstechnologie von der einfachen Erstellung von Bildsequenzen zu einer neuen Phase der umfassenden filmischen Erstellung entwickelt hat. Es senkt nicht nur die Hürde für die professionelle Videoproduktion, sondern ermöglicht es auch jedem, seine Kreativität bequem auszudrücken und die Vision zu verwirklichen, dass "jeder ein Regisseur sein kann".
Derzeit ist Wan 2.6 auf Alibaba Cloud Bailian, der offiziellen Tongyi Wanxiang-Website und der story321.com-Plattform verfügbar. Jeder kann es direkt auf diesen Plattformen erleben, und Unternehmenskunden können die Modell-API auch über Alibaba Cloud Bailian aufrufen. Es wird berichtet, dass die Qianwen APP das Modell bald ebenfalls starten wird und so reichhaltigere Möglichkeiten zur Interaktion damit bietet.



