Nova IA da dona do TikTok 'anima' fotos e sincroniza com áudio; veja exemplos

Notícias, Software

Nova IA da dona do TikTok ‘anima’ fotos e sincroniza com áudio; veja exemplos

A empresa chinesa ByteDance, dona do TikTok, revelou resultados de uma nova inteligência artificial (IA) generativa. A plataforma se chama OmniHuman-1 e, segundo a companhia, é capaz de criar vídeos extremamente realistas com base até mesmo em uma única foto.

O modelo de linguagem gera clipes de curta duração a partir de uma referência no formato de imagem ou vídeo. Além disso, ela é capaz de fazer a sincronia corporal e labial com um áudio fornecido pelo usuário, como se ele originalmente fizesse parte do material.

Still not available. But! Is coming:

OmniHuman-1 Multimodality-Conditioned Human Video Generation

• OmniHuman-1 is a novel end-to-end framework generating realistic human videos from single images and motion signals (audio, video, or both).

• It employs a multimodality… pic.twitter.com/1CuGEd1KSp

— ???????????? ?? ??????????????.???? (@zaesarius) February 5, 2025

Os resultados preliminares da OmniHuman-1 foram publicados pela equipe de desenvolvedores e já viralizaram nas redes sociais pela alta qualidade dos resultados. Em vários dos casos, é até possível perceber que o conteúdo é gerado por uma IA por uma série de inconsistências, mas o conteúdo apresenta maior qualidade que outros modelos parecidos.

Os deepfakes da dona do TikTok

Os vídeos criados pela IA da ByteDance se diferenciam de concorrentes por conseguirem representar pessoas ou figuras animadas em várias poses diferentes, da cintura para cima ou até de corpo inteiro, com movimentos das mãos fazendo sentido de acordo com o conteúdo — se é uma palestra, por exemplo, ou se a pessoa está cantando uma música.

Além disso, os resultados são tidos como mais realistas porque o próprio treinamento é multimodal: a IA desde o começo trabalha com materiais audiovisuais desde o treinamento como um conjunto de imagem, som e movimento, o que ajuda na hora de alterar ou gerar um novo conteúdo.

Saiba mais: Usamos o OpenAI Sora para gerar vídeos com IA: devemos nos preocupar ou estamos seguros?

Um dos exemplos revelados é um vídeo de Albert Einstein, como se ele estivesse dando uma aula ou entrevista. O material usado como base é uma foto do pesquisador e um áudio pré-existente, com a IA “dando vida” ao físico por alguns instantes. Olhos e ouvidos atentos conseguem notar problemas na voz automatizada e no desenho do quadro ao fundo, mas o resultado já impressiona e tem potencial de melhora.

Segundo a ByteDance, o modelo de linguagem foi treinado com 18,7 mil horas de dados em vídeo com humanos. A companhia não explica a fonte desses materiais, o que provavelmente significa que materiais de redes sociais e plataformas como o YouTube foram coletados e alimentaram a IA sem autorização.

Em outra publicação que gerou bastante engajamento, a cantora Taylor Swift aparece em um show interpretando uma música em outro idioma. A voz não se parece com a dela, mas o trabalho de sincronia é notável. E, assim como em todos os outros clipe criados com essa IA, há uma grande marca d”água que identifica a autoria artificial do conteúdo.

Another week another Chinese AI model. OmniHuman-1 by Bytedance can create highly realistic human videos using only a single image and an audio track.

Taylor Swift singing Naruto song convincingly pic.twitter.com/gMi5xLuImw

— Venky (@bevenky) February 4, 2025

Por enquanto, o OmniHuman-1 segue indisponível para uso comercial e ainda passa por experimentos e demonstrações limitadas. A ByteDance não forneceu detalhes sobre quando ou se vai incorporar o modelo de linguagem em algum produto no futuro, mas detalhes técnicos e mais exemplos em vídeo podem ser conferidos no repositório do projeto.