A Meta anunciou nesta sexta-feira (dia 04/10) o Movie Gen, uma coleção de modelos de inteligência artificial para gerar vídeos. Segundo a empresa, a tecnologia é capaz de criar trechos de até 16 segundos a partir de um pedido em texto e personalizá-los usando uma única foto.
De acordo com a companhia, o Movie Gen lida melhor que outros modelos com retoques e alterações. Ele tem a capacidade de substituir objetos do vídeo, mudar a direção de um movimento ou trocar o ambiente, por exemplo. Nas IAs das concorrentes, isso não é possível: ao fazer um pedido do tipo, você “perde” a cena original, já que a IA cria outra do zero.
Ele também pode gerar sons para acompanhar os vídeos, como ruídos de motor em cenas com carros ou barulho de água nas imagens de cachoeira. Por outro lado, não é possível adicionar vozes.
Como nota o TechCrunch, gerar vozes não é difícil, mas ainda é um desafio sincronizá-las com movimentos labiais e expressões faciais. Além disso, esta capacidade técnica abriria possibilidades de usos inadequados, como gerar vídeos envolvendo pessoas reais e declarações falsas — algo que já é um problema com os deepfakes.
O Movie Gen é capaz de gerar vídeos de até 16 segundos, mas com 16 frames por segundo, abaixo do que costumamos ver no cinema ou na TV. Também é possível gerar 10 segundos a 24 fps, um formato mais adequado. Em termos de resolução, a IA trabalha com vídeos de largura de 768 pixels, fazendo upscaling para 1080p.
Meta não vai liberar IA de vídeos por enquanto
O Movie Gen foi detalhado em um artigo científico de 90 páginas, e a Meta publicou alguns vídeos de demonstração. Até o momento, não há nenhuma previsão para ele chegar ao mercado.
Ao contrário do que aconteceu com geradores de textos e imagens estáticas, as IAs para criar vídeos ainda não foram disponibilizadas para os usuários comuns.
A OpenAI, por exemplo, ainda não tem planos para lançar a Sora no mercado. A “irmã cineasta” do ChatGPT foi anunciada em fevereiro de 2024.
Com informações: Meta, Axios, TechCrunch
Meta apresenta IA para gerar vídeos de até 16 segundos com som