Hunyuan Motion 1.0 — Generowanie ruchu ludzkiego 3D na dużą skalę na podstawie tekstu

Hunyuan Motion ożywia język naturalny dzięki wysokiej jakości animacji 3D opartej na szkieletach

Hunyuan Motion to zestaw modeli nowej generacji do generowania ruchu ludzkiego 3D na podstawie tekstu, który przekształca zwykłe polecenia w języku angielskim w płynną, realistyczną animację opartą na szkieletach. Dzięki miliardowi parametrów Diffusion Transformer, trenowanemu za pomocą Flow Matching, Hunyuan Motion przenosi śledzenie instrukcji, szczegółowość ruchu i płynność czasową na nowy poziom. Projekt udostępnia gotowe do użycia CLI i interaktywną aplikację Gradio do szybkiej iteracji, powtarzalnych przepływów pracy i kompatybilności międzyplatformowej. Dzięki pre-treningowi na dużą skalę, wysokiej jakości fine-tuningowi i uczeniu się przez wzmacnianie z wykorzystaniem informacji zwrotnych od ludzi, Hunyuan Motion osiąga najwyższą jakość i niezawodność w grach, filmach, VR/AR, wirtualnej produkcji i cyfrowych potokach ludzkich. Zapoznaj się z oficjalną implementacją open-source, wstępnie wytrenowanymi wagami i narzędziami szybkiego startu na github.com.

Tekst do ruchu

Animacja 3D

Czym jest Hunyuan Motion?

Hunyuan Motion to seria modeli do generowania ruchu ludzkiego 3D na podstawie tekstu, które tworzą animacje postaci oparte na szkieletach bezpośrednio z poleceń w języku naturalnym. Zbudowany na Diffusion Transformer i trenowany za pomocą Flow Matching, Hunyuan Motion skaluje się do poziomu miliarda parametrów, aby znacznie poprawić śledzenie instrukcji i jakość ruchu w porównaniu z poprzednimi systemami open-source. Potok treningowy łączy trzy fazy — masowy pre-training na różnorodnym ruchu ludzkim, fine-tuning na wyselekcjonowanych sekwencjach wysokiej jakości oraz uczenie się przez wzmacnianie z wykorzystaniem informacji zwrotnych od ludzi — aby zapewnić płynny, fizycznie wiarygodny ruch, który jest zgodny ze szczegółowymi wskazówkami tekstowymi. Rezultatem jest przepływ pracy od polecenia do animacji, który bezproblemowo integruje się z nowoczesnymi potokami 3D. Projekt jest dostarczany ze standardowym modelem (≈1,0B parametrów) i wariantem Lite (≈0,46B parametrów) dla różnych zakresów wydajności, wraz z obsługą międzyplatformową, przyjaznym dla przetwarzania wsadowego CLI i łatwym interfejsem Gradio UI do interaktywnej eksploracji. Pełne szczegóły, aktualizacje i instrukcje użytkowania są dostępne w oficjalnym repozytorium na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Diffusion Transformer z Flow Matching skalowany do ~1B parametrów dla doskonałego śledzenia instrukcji i jakości ruchu [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)

Trzyetapowy trening: pre-training na dużą skalę, fine-tuning wysokiej jakości i RLHF dla naturalnego, spójnego ruchu [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)

Gotowe do użycia CLI i aplikacja Gradio do szybkiej lokalnej inferencji i interaktywnej wizualizacji [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)

Flow Matching

Kluczowe funkcje

Co wyróżnia Hunyuan Motion

Diffusion Transformer + Flow Matching w skali miliarda

Hunyuan Motion skaluje szkielet DiT z Flow Matching do ~1,0B parametrów, zwiększając śledzenie instrukcji i jakość ruchu, zachowując jednocześnie stabilność w klatkach. Zobacz oficjalny opis modelu i przegląd treningu na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Trzyetapowy potok treningowy

Pre-training na dużą skalę na ponad 3000 godzin danych ruchu buduje szerokie priorytety; 400 godzin wyselekcjonowanego fine-tuningu poprawia szczegółowość i płynność; RL z informacją zwrotną od ludzi udoskonala naturalność i zgodność z poleceniami. Szczegóły są udokumentowane na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Model zoo: Standard i Lite

Wybierz HY-Motion-1.0 (~1,0B parametrów) dla najnowocześniejszej wierności ruchu lub HY-Motion-1.0-Lite (~0,46B) dla lżejszych wdrożeń. Repozytorium udostępnia wagi i instrukcje dotyczące szybkiej konfiguracji [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Generowanie ruchu oparte na tekście

Hunyuan Motion przyjmuje polecenia w języku naturalnym i generuje ruch, który jest zgodny z zamierzoną akcją, stylem i tempem, umożliwiając kreatywną kontrolę bez ręcznego animowania każdej pozy.

Inżynieria poleceń i szacowanie czasu trwania

Opcjonalnie podłącz moduł szacowania czasu trwania i przepisywania poleceń oparty na LLM, aby poprawić tempo i przejrzystość. Hunyuan Motion udostępnia proste flagi, aby włączać lub wyłączać te narzędzia pomocnicze w razie potrzeby [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

CLI i Gradio w zestawie

Uruchamiaj zadania wsadowe za pośrednictwem CLI dla dużych zestawów poleceń lub uruchom lokalny serwer Gradio do interaktywnej wizualizacji. Te narzędzia są utrzymywane w oficjalnym repozytorium z jasnymi instrukcjami i przykładami na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Obsługa międzyplatformowa

Hunyuan Motion działa na systemach macOS, Windows i Linux, pomagając mieszanym zespołom udostępniać przepływy pracy. Repozytorium zawiera wymagania i skrypty dotyczące spójnej konfiguracji i inferencji [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Wyjścia przyjazne dla produkcji

Generując ruch oparty na szkieletach, Hunyuan Motion pasuje do potoków postaci z rigami i obsługuje retargeting, mieszanie i czyszczenie za pomocą znanych łańcuchów narzędzi DCC.

Jak działa Hunyuan Motion

Od polecenia do animacji szkieletowej

Parsowanie instrukcji i planowanie czasu trwania

Użytkownik pisze polecenie w języku naturalnym opisujące żądaną akcję, styl i tempo. Hunyuan Motion może opcjonalnie użyć modułu przepisywania poleceń i szacowania czasu trwania, aby wyjaśnić intencje, wywnioskować czas i ustandaryzować sformułowania przed generowaniem. Ten krok zwiększa zgodność między opisem tekstowym a wynikiem ruchu, szczególnie w przypadku złożonych lub wieloetapowych akcji, jak udokumentowano w oficjalnym repozytorium na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Próbkowanie DiT dopasowane do przepływu i synteza szkieletu

Hunyuan Motion próbkuje trajektorie ruchu za pomocą Diffusion Transformer trenowanego za pomocą Flow Matching. Model generuje płynny, spójny w czasie ruch 3D oparty na szkieletach, który jest zgodny z poleceniem. Wynik można wyświetlić interaktywnie w aplikacji Gradio lub zapisać za pomocą CLI w celu integracji z potokiem 3D. Pełne instrukcje użytkowania są dostępne na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Gdzie używać Hunyuan Motion

Od prewizualizacji do ostatecznej animacji

Rozwój gier i prototypowanie

Użyj Hunyuan Motion, aby szybko generować ruchy biegu, skoku, ataku, emotek i przemieszczania się, aby prototypować rozgrywkę i iterować na odczuciach postaci. Projektanci mogą testować warianty poleceń i szybko eksportować ruch oparty na szkieletach w celu retargetingu do rigów w grze. W przypadku większych bibliotek CLI obsługuje inferencję wsadową i spójne nazewnictwo wyjść. Oficjalne repozytorium pokazuje zalecany przepływ pracy i flagi na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Film, VFX i wirtualna produkcja

W potokach kinowych Hunyuan Motion przyspiesza previz i blokowanie. Reżyserzy mogą szkicować intencje jako tekst, pozwolić Hunyuan Motion wygenerować ruch bazowy i przekazać go animatorom do dopracowania. Płynne zachowanie zgodne z instrukcjami pomaga utrzymać ścisłe i przewidywalne poprawki w ujęciach.

Cyfrowi ludzie i wirtualni influencerzy

Połącz Hunyuan Motion z cyfrowymi ludźmi, aby syntetyzować ekspresyjne gesty, pętle bezczynności i stylizowane akty. Ponieważ Hunyuan Motion jest oparty na poleceniach, nietechniczni twórcy mogą szybciej eksplorować pomysły na ruch i współpracować z dyrektorami technicznymi w celu dopracowania i dostarczenia.

VR/AR i immersyjne doświadczenia

Hunyuan Motion obsługuje szybkie tworzenie ruchu tłumu w tle, interakcji z przewodnikiem i narracyjnych bitów, które zwiększają immersję. Wyjścia oparte na szkieletach ułatwiają retargetowanie animacji do rigów zoptymalizowanych pod kątem zestawów słuchawkowych i ograniczeń czasu wykonywania.

Edukacja, badania i laboratoria

Edukatorzy i badacze mogą używać Hunyuan Motion jako odniesienia dla podejść Diffusion Transformer i Flow Matching do ruchu. Kod open-source projektu i model zoo umożliwiają powtarzalne eksperymenty i testy porównawcze śledzenia instrukcji [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Studia budujące wewnętrzne biblioteki ruchu

Budując spójną bibliotekę ruchów w stylu domu, Hunyuan Motion zapewnia spójną bazę. Zespoły mogą określić ton, tempo i styl w tekście, generować spójne ujęcia i ustandaryzować recenzję za pośrednictwem aplikacji Gradio przed wprowadzeniem do zarządzania zasobami.

Często zadawane pytania

Wszystko, co musisz wiedzieć, aby zacząć generować z Hunyuan Motion

Co dokładnie generuje Hunyuan Motion?

Hunyuan Motion generuje ruch ludzki 3D oparty na szkieletach z poleceń tekstowych, zaprojektowany do integracji z popularnymi potokami animacji 3D. Model koncentruje się na realizmie, płynności czasowej i śledzeniu instrukcji, dzięki czemu akcje, style i tempo odzwierciedlają to, co opisujesz. Zobacz przegląd projektu i przykłady na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Jak trenowany jest Hunyuan Motion?

Hunyuan Motion wykorzystuje trzyetapowy proces: pre-training na dużą skalę na ponad 3000 godzin ruchu, aby nauczyć się szerokich priorytetów, fine-tuning na 400 godzinach wyselekcjonowanych danych wysokiej jakości w celu uzyskania szczegółów i płynności oraz uczenie się przez wzmacnianie z wykorzystaniem informacji zwrotnych od ludzi w celu dalszego udoskonalenia zgodności instrukcji i naturalności. Podsumowanie techniczne i notatki szkoleniowe znajdują się w oficjalnym repozytorium na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Jaka jest różnica między HY-Motion-1.0 a HY-Motion-1.0-Lite?

Oba są częścią Hunyuan Motion. HY-Motion-1.0 to standardowy model z ~1,0B parametrami, który maksymalizuje śledzenie instrukcji i wierność ruchu, podczas gdy HY-Motion-1.0-Lite (~0,46B) jest zoptymalizowany pod kątem lżejszych wdrożeń i szybszego czasu realizacji. Wybierz na podstawie budżetu GPU i potrzeb w zakresie jakości ruchu. Wskazówki dotyczące pobierania modelu są dostępne na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Jak uruchomić Hunyuan Motion lokalnie?

Zainstaluj PyTorch i wymagania projektu, pobierz wstępnie wytrenowane wagi zgodnie z instrukcjami repozytorium, a następnie wybierz preferowany interfejs: użyj CLI dla poleceń wsadowych lub uruchom aplikację Gradio dla interaktywnego interfejsu użytkownika. Szczegółowy przewodnik szybkiego startu znajduje się na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Czy Hunyuan Motion może automatycznie oszacować czas trwania i przepisać polecenia?

Tak. Hunyuan Motion może opcjonalnie użyć modułu szacowania czasu trwania i przepisywania poleceń, aby poprawić tempo i przejrzystość. Możesz włączyć lub wyłączyć te moduły za pomocą prostych flag. Jeśli nie są dostępne, możesz je wyraźnie wyłączyć, aby uniknąć błędów połączenia, jak opisano w notatkach dotyczących użytkowania repozytorium na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Które systemy operacyjne obsługuje Hunyuan Motion?

Hunyuan Motion obsługuje systemy macOS, Windows i Linux do inferencji. Instrukcje instalacji, listy zależności i narzędzia dla CLI i Gradio są dostępne na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Czy istnieje interaktywne demo?

Tak. Projekt zawiera aplikację Gradio, którą możesz uruchomić lokalnie w celu interaktywnej wizualizacji. Oficjalne repozytorium wskazuje również na Hugging Face Space i oficjalną stronę do wypróbowania modelu. Znajdź linki i konfigurację na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Jak zintegrować wyjścia Hunyuan Motion z moim potokiem?

Ponieważ Hunyuan Motion generuje ruch oparty na szkieletach, można go retargetować do rigów, mieszać z istniejącymi klipami i przekazywać przez narzędzia DCC w celu dopracowania. CLI nadaje się do zadań wsadowych, a aplikacja Gradio obsługuje kreatywną eksplorację i recenzję przed importem. Dowiedz się więcej na [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0).

Zacznij tworzyć z Hunyuan Motion

Przekształć polecenia w gotową do produkcji animację szkieletową już dziś. Postępuj zgodnie z przewodnikiem szybkiego startu w oficjalnym repozytorium, uruchom aplikację Gradio, aby uzyskać natychmiastową wizualizację, i szybko iteruj za pomocą CLI, aby generować ruch wsadowy. Wszystko, czego potrzebujesz do lokalnego wdrożenia Hunyuan Motion — w tym zależności, punkty kontrolne i notatki dotyczące użytkowania — jest dostępne na github.com.

Powiązane modele

Odkryj więcej modeli AI od tego samego dostawcy

Hunyuan 3D

Przekształć swoje pomysły i obrazy w oszałamiające zasoby 3D gotowe do produkcji dzięki rewolucyjnemu Hunyuan 3D firmy Tencent. Zawiera zaawansowane modele dyfuzyjne, profesjonalną syntezę tekstur i bezproblemową integrację przepływu pracy do tworzenia gier, projektowania produktów i sztuki cyfrowej.

Dowiedz się więcej

Hunyuan Image

Hunyuan Image 3.0 transforms your ideas into stunning, photorealistic images with unprecedented prompt adherence and intelligent reasoning. Powered by 80B parameters and 64 experts MoE architecture, it delivers exceptional semantic accuracy and visual excellence. Experience the future of AI image generation with native multimodal understanding.

Dowiedz się więcej

Hunyuan Video Generator

Hunyuan Video transforms your text descriptions into stunning, high-quality videos with exceptional physical accuracy and temporal consistency. Powered by a 13B parameter Unified Diffusion Transformer architecture, it generates up to 5-second videos at 720p resolution with superior motion dynamics and visual fidelity. Experience the future of video creation with advanced Flow Matching schedulers and parallel inference capabilities.

Dowiedz się więcej

Generuj oszałamiające zasoby 3D bez wysiłku dzięki Hunyuan World

Przekształć tekst i obrazy w wysokiej jakości modele 3D. Uwolnij swój potencjał twórczy.

Dowiedz się więcej

Generuj realistyczne awatary wideo za pomocą Hunyuan Video Avatar

Ożyw portrety. Twórz ekspresyjne filmy z mówiącą głową na podstawie jednego obrazu i dźwięku.

Dowiedz się więcej

Hunyuan Custom – Narzędzie nowej generacji do multimodalnej generacji wideo opartej na sztucznej inteligencji

Hunyuan Custom to najnowocześniejsze rozwiązanie firmy Tencent do multimodalnego generowania wideo, które pozwala użytkownikom tworzyć spersonalizowane, spójne tematycznie filmy wideo przy użyciu sztucznej inteligencji. Prześlij obraz, wpisz polecenie lub dodaj wejście audio/wideo, aby w ciągu kilku sekund wygenerować treści o kinowej jakości.

Dowiedz się więcej

Wyświetl wszystkie modele