HY-World 1.5 (WorldPlay): una svolta epocale per i modelli di mondo interattivi in tempo reale

HY-World 1.5 (WorldPlay): una svolta epocale per i modelli di mondo interattivi in tempo reale

5 min read

La ricerca di un'IA in grado di generare e simulare mondi interattivi e coerenti in tempo reale ha fatto un balzo da gigante. Il 17 dicembre 2025, il team Hunyuan di Tencent ha rilasciato in open source HY-World 1.5, nome in codice WorldPlay. Non si tratta solo di un aggiornamento incrementale; è un framework completo che afferma di risolvere il compromesso fondamentale tra velocità, memoria e coerenza a lungo termine nella modellazione del mondo.

In breve, WorldPlay consente la generazione di video in streaming interattivi a lungo termine a ben 24 FPS, il tutto mantenendo la coerenza geometrica nel tempo. Approfondiamo cosa rende questo modello così rivoluzionario.

Il problema principale: velocità contro coerenza#

I modelli di mondo precedenti, incluso lo stesso HY-World 1.0 del team, spesso affrontavano una limitazione critica. Potevano generare mondi 3D impressionanti, ma in genere attraverso un processo offline lento. Ottenere un'interazione in tempo reale significava sacrificare la coerenza a lungo termine dell'ambiente: gli oggetti si trasformavano, le texture sfarfallavano e la geometria si spostava nel tempo. WorldPlay mira a infrangere questo compromesso.

I quattro pilastri dell'architettura di WorldPlay#

La svolta è alimentata da quattro innovazioni tecniche chiave:

  1. Rappresentazione a doppia azione: Questo è il "controller" del modello. Traduce gli input dell'utente (come i movimenti della tastiera e del mouse) in uno spazio di azione robusto e comprensibile dal modello che consente un controllo preciso e reattivo sul punto di vista del mondo generato.

  2. Memoria di contesto ricostituita: Questo è il fulcro della coerenza a lungo termine. Per impedire al modello di "dimenticare" il passato, questo modulo ricostruisce dinamicamente il contesto da blocchi video generati in precedenza. Utilizza una tecnica intelligente chiamata riframing temporale per mantenere accessibili i fotogrammi geometricamente importanti del passato lontano, risolvendo efficacemente il problema dell'attenuazione della memoria.

  3. WorldCompass: un nuovo framework di post-training RL: Dopo l'addestramento iniziale, il modello viene sottoposto a una fase di apprendimento per rinforzo (RL) specificamente progettata per attività a lungo termine. WorldCompass ottimizza direttamente il modello per un migliore follow-up delle azioni e una maggiore qualità visiva su sequenze estese, garantendo che l'output rimanga stabile e coerente.

  4. Context Forcing: Distillazione consapevole della memoria: Per raggiungere velocità in tempo reale, un modello "studente" più piccolo e veloce viene spesso distillato da un modello "insegnante" più grande. Tuttavia, la distillazione standard può far perdere allo studente la capacità di utilizzare il contesto a lungo raggio. Context Forcing è un nuovo metodo di distillazione che allinea il contesto di memoria tra insegnante e studente, preservando la capacità dello studente di ragionamento a lungo termine consentendo al contempo la generazione a 24 FPS.

Caratteristiche e capacità principali#

  • Tempo reale e interattivo: Genera flussi video a 24 FPS, consentendo l'interazione dal vivo in base all'input dell'utente.
  • Coerenza geometrica a lungo termine: Mantiene la stabilità e la coerenza della struttura del mondo su orizzonti di generazione lunghi.
  • Applicazioni versatili: Supporta prospettive in prima e terza persona in ambienti reali e stilizzati. Le potenziali applicazioni includono la ricostruzione 3D interattiva, eventi richiedibili (ad esempio, "fallo piovere") e l'estensione infinita del mondo.
  • Rilascio open source completo: Il team ha rilasciato in open source non solo i pesi del modello, ma un framework full-stack che copre dati, addestramento e implementazione dell'inferenza.

Superiorità quantitativa#

Le prestazioni del modello sono supportate da ampie valutazioni. Come mostrato nella tabella seguente, il modello WorldPlay completo ("Ours (full)") supera i metodi all'avanguardia esistenti in termini di metriche chiave come PSNR, SSIM e LPIPS, soprattutto in scenari a lungo termine, pur essendo l'unico che opera in tempo reale.

ModelloTempo realePSNR/SSIM/LPIPS a breve terminePSNR/SSIM/LPIPS a lungo termine
CameraCtrl17.93 / 0.569 / 0.29810.09 / 0.241 / 0.549
Gen3C21.68 / 0.635 / 0.27815.37 / 0.431 / 0.483
Matrix-Game-2.017.26 / 0.505 / 0.3839.57 / 0.205 / 0.631
Ours (full)21.92 / 0.702 / 0.24718.94 / 0.585 / 0.371

Come iniziare con WorldPlay#

Per gli sviluppatori desiderosi di sperimentare, il repository fornisce un percorso chiaro per un avvio rapido. Il modello è costruito sul potente modello di base HunyuanVideo-1.5. La configurazione prevede:

  1. Creazione di un ambiente Python 3.10 e installazione delle dipendenze.
  2. Installazione di Flash Attention per prestazioni ottimizzate.
  3. Download del modello HunyuanVideo-1.5 pre-addestrato e dei checkpoint specifici di WorldPlay.
  4. Esecuzione degli script di inferenza forniti (generate.py o generate_custom_trajectory.py per percorsi di telecamera personalizzati).

Il codice supporta l'inferenza con diverse varianti del modello: bidirezionale, autoregressivo e il modello autoregressivo distillato per la massima velocità.

Conclusione e lavoro futuro#

HY-World 1.5 (WorldPlay) rappresenta una pietra miliare significativa nella creazione e simulazione di contenuti guidati dall'IA. Affrontando sistematicamente i colli di bottiglia di velocità e coerenza, apre nuove possibilità per applicazioni interattive in tempo reale nei giochi, nella realtà virtuale e nella visualizzazione architettonica.

Il team ha indicato che il codice di addestramento è ancora nella lista TODO per il rilascio open source, che sarà un passo successivo cruciale per la comunità di ricerca per costruire su questo lavoro. Per ora, il rilascio dei modelli e del codice di inferenza è un enorme contributo che consente a tutti di sperimentare e valutare questo modello di mondo interattivo all'avanguardia.

Scopri di più:

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles