Gartner prevê queda de 90% no custo de inferência em IA

Sem Categoria

Gartner prevê queda de 90% no custo de inferência em IA

O Gartner prevê que, até 2030, o custo de realizar inferências em um grande modelo de linguagem com 1 trilhão de parâmetros cairá mais de 90% em relação a 2025 para os provedores de IA generativa. A consultoria também estima que os LLMs disponíveis em 2030 serão até 100 vezes mais eficientes em custo do que os primeiros modelos de tamanho semelhante desenvolvidos em 2022.

Essa redução será impulsionada por uma combinação de fatores ligados a semicondutores, infraestrutura e arquitetura de modelos. Entre eles estão ganhos de eficiência em chips e infraestrutura, inovações no desenho dos modelos, maior utilização dos processadores, expansão do uso de silício especializado para inferência e aplicação de dispositivos de borda em casos específicos.

Will Sommer, diretor analista sênior do Gartner, afirmou que esses avanços formarão a base da queda projetada nos custos. Ele relaciona a mudança ao amadurecimento tecnológico da infraestrutura usada em IA generativa.

Projeção considera dois cenários de semicondutores

O estudo divide os resultados projetados em dois conjuntos de cenários. O primeiro é o de ponta, em que o processamento do modelo é baseado em chips de ponta. O segundo é o de combinação legada, em que o processamento considera uma combinação representativa de semicondutores disponíveis, com base nas previsões do próprio Gartner.

Segundo a consultoria, os custos modelados no cenário de combinação legada são consideravelmente mais altos do que no cenário de ponta, em razão da menor capacidade computacional.

Queda do custo por token não elimina pressão sobre gasto total

Porém, a redução do custo por token não será repassada integralmente aos clientes corporativos. Aplicações de maior complexidade exigirão mais tokens do que os casos de uso convencionais atuais.

A empresa informa que modelos agênticos podem exigir de cinco a 30 vezes mais tokens por tarefa do que um chatbot padrão de IA generativa. Também afirma que esses sistemas podem executar um volume de tarefas superior ao de um humano usando GenAI.

A redução do custo unitário dos tokens tende a viabilizar recursos mais avançados, mas também deve elevar a demanda total por processamento. A consultoria afirma que, como o consumo de tokens cresce mais rápido do que a queda de seus custos, o gasto geral com inferência deve aumentar.

Will Sommer afirmou que chief product officers não devem tratar a deflação do custo de tokens básicos como sinônimo de democratização da inteligência de ponta. Segundo ele, à medida que a inteligência mais commoditizada se aproxima de custo próximo de zero, a capacidade computacional e os sistemas necessários para raciocínio avançado continuam escassos.

O valor deve se concentrar nas plataformas capazes de orquestrar cargas de trabalho em um portfólio diversificado de modelos. O Gartner afirma que tarefas rotineiras e de alta frequência tendem a ser direcionadas a modelos menores e específicos de domínio, com desempenho superior ao de soluções genéricas em fluxos de trabalho especializados e a custo mais baixo. A inferência de modelos de ponta, mais cara, deve ser reservada a tarefas de raciocínio complexo e de maior margem. (Com assessoria de imprensa)

O post Gartner prevê queda de 90% no custo de inferência em IA apareceu primeiro em TeleSíntese.