HY-World 1.5 (WorldPlay): Uma Mudança de Jogo para Modelos Mundiais Interativos em Tempo Real

A busca por IA que possa gerar e simular mundos interativos e consistentes em tempo real deu um salto monumental. Em 17 de dezembro de 2025, a equipe Hunyuan da Tencent tornou o HY-World 1.5, codinome WorldPlay, de código aberto. Isso não é apenas uma atualização incremental; é uma estrutura abrangente que afirma resolver a troca fundamental entre velocidade, memória e consistência de longo prazo na modelagem mundial.

Em resumo, o WorldPlay permite a geração de vídeo streaming interativo de longo alcance a incríveis 24 FPS, tudo isso mantendo a consistência geométrica ao longo do tempo. Vamos mergulhar no que torna este modelo tão revolucionário.

O Problema Central: Velocidade vs. Consistência#

Os modelos mundiais anteriores, incluindo o próprio HY-World 1.0 da equipe, frequentemente enfrentavam uma limitação crítica. Eles podiam gerar mundos 3D impressionantes, mas normalmente por meio de um processo offline lento. Alcançar a interação em tempo real significava sacrificar a consistência de longo prazo do ambiente — os objetos se transformavam, as texturas cintilavam e a geometria se desviava com o tempo. O WorldPlay visa quebrar esse compromisso.

Os Quatro Pilares da Arquitetura do WorldPlay#

A inovação é alimentada por quatro inovações técnicas principais:

Representação de Ação Dupla: Este é o "controlador" do modelo. Ele traduz as entradas do usuário (como movimentos do teclado e do mouse) em um espaço de ação robusto e compreensível pelo modelo que permite um controle preciso e responsivo sobre o ponto de vista do mundo gerado.
Memória de Contexto Reconstituída: Este é o núcleo da consistência de longo prazo. Para evitar que o modelo "esqueça" o passado, este módulo reconstrói dinamicamente o contexto de trechos de vídeo gerados anteriormente. Ele usa uma técnica inteligente chamada reformulação temporal para manter os quadros geometricamente importantes do passado distante acessíveis, resolvendo efetivamente o problema da atenuação da memória.
WorldCompass: Uma Nova Estrutura de Pós-Treinamento de RL: Após o treinamento inicial, o modelo passa por uma fase de aprendizado por reforço (RL) projetada especificamente para tarefas de longo alcance. O WorldCompass otimiza diretamente o modelo para melhor acompanhamento de ações e maior qualidade visual em sequências estendidas, garantindo que a saída permaneça estável e coerente.
Forçamento de Contexto: Destilação Consciente da Memória: Para atingir velocidades em tempo real, um modelo "aluno" menor e mais rápido é frequentemente destilado de um modelo "professor" maior. No entanto, a destilação padrão pode fazer com que o aluno perca sua capacidade de usar o contexto de longo alcance. O Forçamento de Contexto é um novo método de destilação que alinha o contexto da memória entre professor e aluno, preservando a capacidade do aluno para raciocínio de longo prazo, permitindo a geração de 24 FPS.

Principais Recursos e Capacidades#

Tempo Real e Interativo: Gera fluxos de vídeo a 24 FPS, permitindo interação ao vivo com base na entrada do usuário.
Consistência Geométrica de Longo Prazo: Mantém a estabilidade e a coerência da estrutura do mundo em longos horizontes de geração.
Aplicações Versáteis: Suporta perspectivas de primeira e terceira pessoa em ambientes do mundo real e estilizados. As aplicações potenciais incluem reconstrução 3D interativa, eventos acionáveis (por exemplo, "faça chover") e extensão infinita do mundo.
Lançamento Abrangente de Código Aberto: A equipe tornou de código aberto não apenas os pesos do modelo, mas uma estrutura completa que cobre dados, treinamento e implantação de inferência.

Superioridade Quantitativa#

O desempenho do modelo é apoiado por extensas avaliações. Como mostrado na tabela abaixo, o modelo WorldPlay completo ("Ours (full)") supera os métodos de última geração existentes em métricas-chave como PSNR, SSIM e LPIPS, especialmente em cenários de longo prazo, ao mesmo tempo em que é o único que opera em tempo real.

Modelo	Tempo real	PSNR/SSIM/LPIPS de curto prazo	PSNR/SSIM/LPIPS de longo prazo
CameraCtrl	❌	17,93 / 0,569 / 0,298	10,09 / 0,241 / 0,549
Gen3C	❌	21,68 / 0,635 / 0,278	15,37 / 0,431 / 0,483
Matrix-Game-2.0	✅	17,26 / 0,505 / 0,383	9,57 / 0,205 / 0,631
Ours (full)	✅	21,92 / 0,702 / 0,247	18,94 / 0,585 / 0,371

Começando com o WorldPlay#

Para desenvolvedores ansiosos para experimentar, o repositório fornece um caminho claro para um início rápido. O modelo é construído sobre o poderoso modelo base HunyuanVideo-1.5. A configuração envolve:

Criar um ambiente Python 3.10 e instalar as dependências.
Instalar o Flash Attention para desempenho otimizado.
Baixar o modelo HunyuanVideo-1.5 pré-treinado e os checkpoints específicos do WorldPlay.
Executar os scripts de inferência fornecidos (generate.py ou generate_custom_trajectory.py para caminhos de câmera personalizados).

O código suporta inferência com diferentes variantes de modelo: bidirecional, auto-regressivo e o modelo auto-regressivo destilado para velocidade máxima.

Conclusão e Trabalho Futuro#

HY-World 1.5 (WorldPlay) representa um marco significativo na criação e simulação de conteúdo orientado por IA. Ao abordar sistematicamente os gargalos de velocidade e consistência, abre novas possibilidades para aplicações interativas em tempo real em jogos, realidade virtual e visualização arquitetônica.

A equipe indicou que o código de treinamento ainda está na lista de pendências para se tornar de código aberto, o que será um próximo passo crucial para a comunidade de pesquisa construir sobre este trabalho. Por enquanto, o lançamento dos modelos e do código de inferência é uma contribuição enorme que permite que todos experimentem e comparem este modelo mundial interativo de última geração.

Saiba Mais:

Repositório GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
Relatório Técnico e Artigo: Verifique o repositório para obter links para o relatório técnico detalhado e artigos de pesquisa.

HY-World 1.5 (WorldPlay): Uma Mudança de Jogo para Modelos Mundiais Interativos em Tempo Real

O Problema Central: Velocidade vs. Consistência#

Os Quatro Pilares da Arquitetura do WorldPlay#

Principais Recursos e Capacidades#

Superioridade Quantitativa#

Começando com o WorldPlay#

Conclusão e Trabalho Futuro#

Start Creating with AI

Related Articles

Fish Audio S2: The Most Expressive Open-Source Voice AI for Creators

GPT-5.3 Instant: The Ultimate Efficiency Tool for Content Creators

The Ultimate Guide to Gemini 3.1 Flash-Lite: Revolutionizing Creative Workflows