Os grandes modelos de linguagem (LLMs) como o o1, da OpenAI, representam avanços significativos em desempenho, mas ainda estão longe de atingir a eficiência ideal. Pesquisadores da Tencent AI Lab e da Shanghai Jiao Tong University publicaram o primeiro estudo abrangente sobre um problema recorrente nesses modelos que buscam imitar o raciocínio humano: o overthinking (ou “reflexão excessiva”, em português).
O estudo analisa as causas e possíveis soluções para o uso excessivo de tokens, consumo elevado de poder computacional e desperdício de recursos no processamento de outputs de modelos generativos como o o1 e o DeepSeek R1, seu concorrente chinês de nível similar. Essas inteligências artificiais tentam simular o processo cognitivo humano para formular respostas em uma abordagem conhecida como Chain of Thought (CoT, ou “Cadeia de pensamentos” em português). No entanto, esse método pode consumir até 1.953% mais tokens do que IAs menos potentes — muitas vezes, sem necessidade.
No artigo, os pesquisadores ilustram o fenômeno com uma pergunta simples: quanto é 2 + 3? O teste foi aplicado a diversos LLMs populares, como GPT-4o, Gemini Pro e Claude-3.5, e comparado ao QwQ-32B-Preview, um modelo racional da Qwen Team.

Os resultados revelam um contraste marcante:
- Os LLMs tradicionais forneceram respostas corretas consumindo menos de 10 tokens (exceto o Qwen2.5-Math-72B, que usou quase 50 tokens);
- O QwQ-32B-Preview utilizou 901 tokens para responder à mesma pergunta.
O modelo racional da Qwen Team elaborou 10 soluções diferentes, todas chegando à mesma conclusão: 2 + 3 = 5. Ele conseguiu alcançar o resultado correto na primeira tentativa.
Embora a pergunta seja simples, o QwQ-32B-Preview não consegue diferenciá-la de inputs mais complexos. Por isso, a IA reflete sobre o problema até concluir que não há outra alternativa possível, mesmo que a primeira solução já estivesse correta com apenas 39 tokens.

“No exemplo da figura, observamos que a rodada inicial de soluções já apresenta a resposta correta. As soluções posteriores, que compõem a maioria dos tokens gerados, não aumentam a precisão”, destaca o estudo.
Após testes, os pesquisadores identificaram que, em 92% dos cenários, as IAs chegaram à resposta correta logo na primeira tentativa. O problema do overthinking foi mais recorrente em questões matemáticas mais simples.
Por que overthinking de IA é um problema?
As inteligências artificiais generativas demandam um poder computacional significativo para se manterem ativas. O aumento da necessidade de processamento impacta diretamente o consumo de energia e o uso de componentes embarcados em data centers. Esse é um problema especial para empresas com plataformas centralizadas, como OpenAI, DeepSeek e Google, que precisam expandir continuamente seus servidores para atender à crescente demanda dos usuários.
Para o usuário, o maior problema é o consumo da janela de contexto. A técnica de cadeia de pensamentos utiliza muito mais tokens do que o normal, e esses tokens contam para a janela de contexto — o espaço onde a pergunta é inserida, por exemplo. Embora isso não faça grande diferença para prompts simples, pode impactar significativamente solicitações mais complexas.
Overthinking só é um problema quando é em vão
Apesar disso, a implementação da técnica de CoT em modelos de linguagem avançados representa um avanço crucial. A capacidade desses modelos de documentar sua linha de raciocínio ao gerar respostas é extremamente útil para o próprio treinamento da IA e o desenvolvimento de modelos destilados, destaca Billy Garcia, pesquisador de inteligência artificial e cofundador da Abstrakt Gen-AI, em entrevista ao TecMundo.
“Basicamente, a perda de eficiência de 1.953% só ocorre quando o modelo é escolhido de forma inadequada”, explica Garcia. “No entanto, ter acesso a essa cadeia de raciocínio é essencial para determinados casos de uso — principalmente em pesquisas.”
“Portanto, usuários não devem recorrer a modelos avançados para responder perguntas triviais, como “Quanto é 2 + 3?”, ressalta o especialista.
Existe solução para o overthinking de IA?
O artigo explora diferentes estratégias para reduzir a reflexão excessiva e tornar o processamento de modelos racionais mais eficiente. As soluções incluem métodos de treinamento otimizados, como o chamado “self-training”, que usam amostras de conjunto de dados gerados pela IA para treinar e aperfeiçoar a própria IA.

“O self-training acontece através de diferentes métodos de refinamento e tem o objetivo de tornar o modelo mais eficiente sem sacrificar a precisão para tarefas mais complexas”, descreveu Garcia. Basicamente, é como preparar o modelo para “pensar menos”.
Entre as abordagens sugeridas estão:
- Refinamento supervisionado: aprimoramento de modelos com base em dados sintéticos positivos;
- Otimização de preferência direta: treinamento dos modelos considerando a resposta preferida pelos humanos;
- Otimização de preferência de raciocínio: adição de registros negativos de raciocínio para evitar repetições desnecessárias;
- Otimização de preferência simples: ajuste fino para alinhar a função de recompensa à métrica de geração de respostas.
No entanto, sozinhas, essas soluções não eliminam completamente o overthinking. “Embora respostas amostrais mais curtas melhorem a eficiência de modelos do tipo o1, eles ainda sofrem com reflexão excessiva”, explica o estudo.
Por isso, o artigo propõe métodos complementares para identificar quando a IA já obteve a resposta correta, como:
- Primeira Solução Correta (FCS, em inglês): define a primeira resposta gerada como a correta;
- FCS + Reflexão: permite que a IA reflita apenas sobre a precisão da primeira resposta, garantindo um resultado mais confiável na segunda tentativa;
- Soluções avidamente diversas: adiciona novas estratégias de reflexão, caso os outputs anteriores não sejam consistentes.
Ao combinar essas estratégias, os pesquisadores observaram uma redução significativa no consumo de tokens e na demanda computacional, sem comprometer a capacidade cognitiva da IA racional em relação aos LLMs tradicionais.
Todo mundo precisa de uma IA racional?
O o1 e o DeepSeek-R1 representam avanços notáveis no desenvolvimento de inteligência artificial generativa, mas suas aplicações não são tão relevantes para o uso cotidiano. “A complexidade desses modelos é mais adequada para problemas que exigem raciocínio profundo, como pesquisas científicas ou tomada de decisões complexas”, explica Garcia.

No dia a dia, em tarefas como desenvolvimento de softwares simples, revisão de textos curtos e outras aplicações triviais, é provável que tokens sejam consumidos desnecessariamente.
Atualmente, o o1 da OpenAI está disponível na assinatura ChatGPT Plus com “acesso limitado”. Durante sua fase de prévia, o modelo oferecia uma janela de contexto de até 128 mil tokens, distribuídos entre as versões o1-preview (32 mil tokens) e o1-mini (65 mil tokens).
Sendo assim, ao recorrer à ajuda de uma inteligência artificial, é importante escolher bem qual modelo utilizar. Isso pode ajudar não só a ter respostas mais rapidamente, como também economizar tokens que podem ser úteis em uma consulta posterior.