Nova IA generativa da Nvidia cria música, voz e sons com qualquer texto

A Nvidia apresentou uma nova inteligência artificial (IA) generativa desenvolvida pela empresa para lidar com áudio. A plataforma se chama Foundational Generative Audio Transformer Opus 1, ou Fugatto na sigla criada pela marca.

A Fugatto é especializada em modificar e gerar vozes, música ou sons no geral com base em duas formas de entrada: comandos de texto ou outros arquivos de áudio.

Segundo a Nvidia, a ideia é que a IA seja utilizada por profissionais da indústria criativa em áreas como publicidade, design de jogos e música. Neste caso, ela é vista como ideal para “gerar um protótipo ou editar a ideia de uma música, tentando diferentes estilos” ou adicionando efeitos em um arquivo já pronto.

Fora o Fugatto, que não tem qualquer previsão de ser lançado comercialmente ou ser implementado, a Nvidia está trabalhando também em recursos de IA para acelerar treinamento de robôs humanoides e deixar NPCs de jogos “extremamente realistas”.

O que a Fugatto é capaz de fazer?

O segredo da Fugatto está em um recurso chamado ComposableART, que combina na geração de conteúdo ações multimodais — ou seja, de múltiplos formatos — que antes eram usados por ferramentas de IA apenas durante o treinamento.

De acordo com o vídeo divulgado pela Nvidia, é possível pedir para a IA uma batida de um ritmo específico e usando determinados instrumentos. Ela também é capaz de isolar os vocais de um arquivo de música, separando ele mesmo que a gravação esteja em uma qualidade reduzida.

A interface de solicitação e entrega de áudios do Fugatto. (Imagem: Nvidia/Reprodução)
A interface de solicitação e entrega de áudios do Fugatto. (Imagem: Nvidia/Reprodução)

Se o seu prompt em texto for bem escrito, você pode até pedir uma ambientação sonora completa, com barulhos de determinados elementos acompanhados de uma trilha sonora. Por fim, é também possível gerar vozes realistas do zero, indicando sotaque e tom de fala.

Segundo a Nvidia, a plataforma usa 2,5 bilhões de parâmetros e é capaz de produzir sons totalmente inéditos, fazendo combinações inexistentes em outras bases de dados ou IA.

Ela foi treinada com uma base de conteúdos armazenada em sistemas da Nvidia que rodam a partir de múltiplas GPUs H100. A companhia não explica quais são as fontes utilizados, mas a possível infração a direitos autorais e coleta sem autorização de outras plataformas já gerou polêmicas no setor.

Tags

Compartilhe

SVA na Pratica mais Valor mais Receita para o seu Provedor - CDNTV
SEGURANÇA OU DISPONIBILIDADE ? O QUE TORNA UMA INTERNET SEGURA ?
SWITCH RAISECOM na ARSITEC para PROVEDORES - CAST DOS LOUCOS
NUVEM X COLOCATION - Qual vale mais a pena com a Asap Telecom
ERROS DE SEGURANÇA QUE PODEM CUSTAR CARO NO SEU PROVEDOR EM 2025 com @Ayubio
LANÇAMENTO VIVENSIS NETWORK
A Internet ta cara ?
Monte seu Provedor em 2025 fácil fácil
PREPARE O SEU PROVEDOR PARA 2025 - CDNTV
Ajudou um provedor a sair do 0 a 1 Milhão de assinantes - Ederson Teixeira