HY-World 1.5 (WorldPlay): Uma Mudança de Jogo para Modelos Mundiais Interativos em Tempo Real

HY-World 1.5 (WorldPlay): Uma Mudança de Jogo para Modelos Mundiais Interativos em Tempo Real

5 min read

A busca por IA que possa gerar e simular mundos interativos e consistentes em tempo real deu um salto monumental. Em 17 de dezembro de 2025, a equipe Hunyuan da Tencent tornou o HY-World 1.5, codinome WorldPlay, de código aberto. Isso não é apenas uma atualização incremental; é uma estrutura abrangente que afirma resolver a troca fundamental entre velocidade, memória e consistência de longo prazo na modelagem mundial.

Em resumo, o WorldPlay permite a geração de vídeo streaming interativo de longo alcance a incríveis 24 FPS, tudo isso mantendo a consistência geométrica ao longo do tempo. Vamos mergulhar no que torna este modelo tão revolucionário.

O Problema Central: Velocidade vs. Consistência#

Os modelos mundiais anteriores, incluindo o próprio HY-World 1.0 da equipe, frequentemente enfrentavam uma limitação crítica. Eles podiam gerar mundos 3D impressionantes, mas normalmente por meio de um processo offline lento. Alcançar a interação em tempo real significava sacrificar a consistência de longo prazo do ambiente — os objetos se transformavam, as texturas cintilavam e a geometria se desviava com o tempo. O WorldPlay visa quebrar esse compromisso.

Os Quatro Pilares da Arquitetura do WorldPlay#

A inovação é alimentada por quatro inovações técnicas principais:

  1. Representação de Ação Dupla: Este é o "controlador" do modelo. Ele traduz as entradas do usuário (como movimentos do teclado e do mouse) em um espaço de ação robusto e compreensível pelo modelo que permite um controle preciso e responsivo sobre o ponto de vista do mundo gerado.

  2. Memória de Contexto Reconstituída: Este é o núcleo da consistência de longo prazo. Para evitar que o modelo "esqueça" o passado, este módulo reconstrói dinamicamente o contexto de trechos de vídeo gerados anteriormente. Ele usa uma técnica inteligente chamada reformulação temporal para manter os quadros geometricamente importantes do passado distante acessíveis, resolvendo efetivamente o problema da atenuação da memória.

  3. WorldCompass: Uma Nova Estrutura de Pós-Treinamento de RL: Após o treinamento inicial, o modelo passa por uma fase de aprendizado por reforço (RL) projetada especificamente para tarefas de longo alcance. O WorldCompass otimiza diretamente o modelo para melhor acompanhamento de ações e maior qualidade visual em sequências estendidas, garantindo que a saída permaneça estável e coerente.

  4. Forçamento de Contexto: Destilação Consciente da Memória: Para atingir velocidades em tempo real, um modelo "aluno" menor e mais rápido é frequentemente destilado de um modelo "professor" maior. No entanto, a destilação padrão pode fazer com que o aluno perca sua capacidade de usar o contexto de longo alcance. O Forçamento de Contexto é um novo método de destilação que alinha o contexto da memória entre professor e aluno, preservando a capacidade do aluno para raciocínio de longo prazo, permitindo a geração de 24 FPS.

Principais Recursos e Capacidades#

  • Tempo Real e Interativo: Gera fluxos de vídeo a 24 FPS, permitindo interação ao vivo com base na entrada do usuário.
  • Consistência Geométrica de Longo Prazo: Mantém a estabilidade e a coerência da estrutura do mundo em longos horizontes de geração.
  • Aplicações Versáteis: Suporta perspectivas de primeira e terceira pessoa em ambientes do mundo real e estilizados. As aplicações potenciais incluem reconstrução 3D interativa, eventos acionáveis (por exemplo, "faça chover") e extensão infinita do mundo.
  • Lançamento Abrangente de Código Aberto: A equipe tornou de código aberto não apenas os pesos do modelo, mas uma estrutura completa que cobre dados, treinamento e implantação de inferência.

Superioridade Quantitativa#

O desempenho do modelo é apoiado por extensas avaliações. Como mostrado na tabela abaixo, o modelo WorldPlay completo ("Ours (full)") supera os métodos de última geração existentes em métricas-chave como PSNR, SSIM e LPIPS, especialmente em cenários de longo prazo, ao mesmo tempo em que é o único que opera em tempo real.

ModeloTempo realPSNR/SSIM/LPIPS de curto prazoPSNR/SSIM/LPIPS de longo prazo
CameraCtrl17,93 / 0,569 / 0,29810,09 / 0,241 / 0,549
Gen3C21,68 / 0,635 / 0,27815,37 / 0,431 / 0,483
Matrix-Game-2.017,26 / 0,505 / 0,3839,57 / 0,205 / 0,631
Ours (full)21,92 / 0,702 / 0,24718,94 / 0,585 / 0,371

Começando com o WorldPlay#

Para desenvolvedores ansiosos para experimentar, o repositório fornece um caminho claro para um início rápido. O modelo é construído sobre o poderoso modelo base HunyuanVideo-1.5. A configuração envolve:

  1. Criar um ambiente Python 3.10 e instalar as dependências.
  2. Instalar o Flash Attention para desempenho otimizado.
  3. Baixar o modelo HunyuanVideo-1.5 pré-treinado e os checkpoints específicos do WorldPlay.
  4. Executar os scripts de inferência fornecidos (generate.py ou generate_custom_trajectory.py para caminhos de câmera personalizados).

O código suporta inferência com diferentes variantes de modelo: bidirecional, auto-regressivo e o modelo auto-regressivo destilado para velocidade máxima.

Conclusão e Trabalho Futuro#

HY-World 1.5 (WorldPlay) representa um marco significativo na criação e simulação de conteúdo orientado por IA. Ao abordar sistematicamente os gargalos de velocidade e consistência, abre novas possibilidades para aplicações interativas em tempo real em jogos, realidade virtual e visualização arquitetônica.

A equipe indicou que o código de treinamento ainda está na lista de pendências para se tornar de código aberto, o que será um próximo passo crucial para a comunidade de pesquisa construir sobre este trabalho. Por enquanto, o lançamento dos modelos e do código de inferência é uma contribuição enorme que permite que todos experimentem e comparem este modelo mundial interativo de última geração.

Saiba Mais:

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles