A busca por IA que possa gerar e simular mundos interativos e consistentes em tempo real deu um salto monumental. Em 17 de dezembro de 2025, a equipe Hunyuan da Tencent tornou o HY-World 1.5, codinome WorldPlay, de código aberto. Isso não é apenas uma atualização incremental; é uma estrutura abrangente que afirma resolver a troca fundamental entre velocidade, memória e consistência de longo prazo na modelagem mundial.
Em resumo, o WorldPlay permite a geração de vídeo streaming interativo de longo alcance a incríveis 24 FPS, tudo isso mantendo a consistência geométrica ao longo do tempo. Vamos mergulhar no que torna este modelo tão revolucionário.
O Problema Central: Velocidade vs. Consistência#
Os modelos mundiais anteriores, incluindo o próprio HY-World 1.0 da equipe, frequentemente enfrentavam uma limitação crítica. Eles podiam gerar mundos 3D impressionantes, mas normalmente por meio de um processo offline lento. Alcançar a interação em tempo real significava sacrificar a consistência de longo prazo do ambiente — os objetos se transformavam, as texturas cintilavam e a geometria se desviava com o tempo. O WorldPlay visa quebrar esse compromisso.
Os Quatro Pilares da Arquitetura do WorldPlay#
A inovação é alimentada por quatro inovações técnicas principais:
-
Representação de Ação Dupla: Este é o "controlador" do modelo. Ele traduz as entradas do usuário (como movimentos do teclado e do mouse) em um espaço de ação robusto e compreensível pelo modelo que permite um controle preciso e responsivo sobre o ponto de vista do mundo gerado.
-
Memória de Contexto Reconstituída: Este é o núcleo da consistência de longo prazo. Para evitar que o modelo "esqueça" o passado, este módulo reconstrói dinamicamente o contexto de trechos de vídeo gerados anteriormente. Ele usa uma técnica inteligente chamada reformulação temporal para manter os quadros geometricamente importantes do passado distante acessíveis, resolvendo efetivamente o problema da atenuação da memória.
-
WorldCompass: Uma Nova Estrutura de Pós-Treinamento de RL: Após o treinamento inicial, o modelo passa por uma fase de aprendizado por reforço (RL) projetada especificamente para tarefas de longo alcance. O WorldCompass otimiza diretamente o modelo para melhor acompanhamento de ações e maior qualidade visual em sequências estendidas, garantindo que a saída permaneça estável e coerente.
-
Forçamento de Contexto: Destilação Consciente da Memória: Para atingir velocidades em tempo real, um modelo "aluno" menor e mais rápido é frequentemente destilado de um modelo "professor" maior. No entanto, a destilação padrão pode fazer com que o aluno perca sua capacidade de usar o contexto de longo alcance. O Forçamento de Contexto é um novo método de destilação que alinha o contexto da memória entre professor e aluno, preservando a capacidade do aluno para raciocínio de longo prazo, permitindo a geração de 24 FPS.
Principais Recursos e Capacidades#
- Tempo Real e Interativo: Gera fluxos de vídeo a 24 FPS, permitindo interação ao vivo com base na entrada do usuário.
- Consistência Geométrica de Longo Prazo: Mantém a estabilidade e a coerência da estrutura do mundo em longos horizontes de geração.
- Aplicações Versáteis: Suporta perspectivas de primeira e terceira pessoa em ambientes do mundo real e estilizados. As aplicações potenciais incluem reconstrução 3D interativa, eventos acionáveis (por exemplo, "faça chover") e extensão infinita do mundo.
- Lançamento Abrangente de Código Aberto: A equipe tornou de código aberto não apenas os pesos do modelo, mas uma estrutura completa que cobre dados, treinamento e implantação de inferência.
Superioridade Quantitativa#
O desempenho do modelo é apoiado por extensas avaliações. Como mostrado na tabela abaixo, o modelo WorldPlay completo ("Ours (full)") supera os métodos de última geração existentes em métricas-chave como PSNR, SSIM e LPIPS, especialmente em cenários de longo prazo, ao mesmo tempo em que é o único que opera em tempo real.
| Modelo | Tempo real | PSNR/SSIM/LPIPS de curto prazo | PSNR/SSIM/LPIPS de longo prazo |
|---|---|---|---|
| CameraCtrl | ❌ | 17,93 / 0,569 / 0,298 | 10,09 / 0,241 / 0,549 |
| Gen3C | ❌ | 21,68 / 0,635 / 0,278 | 15,37 / 0,431 / 0,483 |
| Matrix-Game-2.0 | ✅ | 17,26 / 0,505 / 0,383 | 9,57 / 0,205 / 0,631 |
| Ours (full) | ✅ | 21,92 / 0,702 / 0,247 | 18,94 / 0,585 / 0,371 |
Começando com o WorldPlay#
Para desenvolvedores ansiosos para experimentar, o repositório fornece um caminho claro para um início rápido. O modelo é construído sobre o poderoso modelo base HunyuanVideo-1.5. A configuração envolve:
- Criar um ambiente Python 3.10 e instalar as dependências.
- Instalar o Flash Attention para desempenho otimizado.
- Baixar o modelo HunyuanVideo-1.5 pré-treinado e os checkpoints específicos do WorldPlay.
- Executar os scripts de inferência fornecidos (
generate.pyougenerate_custom_trajectory.pypara caminhos de câmera personalizados).
O código suporta inferência com diferentes variantes de modelo: bidirecional, auto-regressivo e o modelo auto-regressivo destilado para velocidade máxima.
Conclusão e Trabalho Futuro#
HY-World 1.5 (WorldPlay) representa um marco significativo na criação e simulação de conteúdo orientado por IA. Ao abordar sistematicamente os gargalos de velocidade e consistência, abre novas possibilidades para aplicações interativas em tempo real em jogos, realidade virtual e visualização arquitetônica.
A equipe indicou que o código de treinamento ainda está na lista de pendências para se tornar de código aberto, o que será um próximo passo crucial para a comunidade de pesquisa construir sobre este trabalho. Por enquanto, o lançamento dos modelos e do código de inferência é uma contribuição enorme que permite que todos experimentem e comparem este modelo mundial interativo de última geração.
Saiba Mais:
- Repositório GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Relatório Técnico e Artigo: Verifique o repositório para obter links para o relatório técnico detalhado e artigos de pesquisa.



