Quando o raciocínio da IA dá errado: a pesquisa da Microsoft mostra mais tokens pode significar mais problemas

Edição - Istoé TECH

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais

Os grandes modelos de linguagem (LLMs) são cada vez mais capazes de raciocínio complexo por meio de “escala de tempo de inferência”, um conjunto de técnicas que alocam mais recursos computacionais durante a inferência para gerar respostas. No entanto, um novo estudo da Microsoft Research revela que a eficácia desses métodos de escala não é universal. Os aumentos de desempenho variam significativamente entre diferentes modelos, tarefas e complexidades de problemas.

A descoberta principal é que simplesmente jogar mais computação em um problema durante a inferência não garante resultados melhores ou mais eficientes. As descobertas podem ajudar as empresas a entender melhor a volatilidade dos custos e a confiabilidade do modelo, pois procuram integrar o raciocínio avançado de IA em seus aplicativos.

Colocando métodos de escala à prova

A equipe de pesquisa da Microsoft conduziu uma extensa análise empírica em nove modelos de fundação de última geração. Isso incluiu modelos “convencionais” como GPT-4O, Claude 3,5 sonetos, Gemini 2.0 Pro e Llama 3.1 405b, bem como modelos especificamente ajustados para raciocínio aumentado por meio de escala de tempo de inferência. Isso incluiu O1 e O3-mini do Openai, o claude de 3,7 sonetos do Anthropic, o Gemini 2 Flash Thinking e o Deepseek R1 do Google.

Eles avaliaram esses modelos usando três abordagens distintas de escala de tempo de inferência:

Cadeia de pensamento padrão (COT): O método básico em que o modelo é solicitado a responder passo a passo.
Escala paralela: O modelo gera várias respostas independentes para a mesma pergunta e usa um agregador (como o voto da maioria ou a seleção da resposta de melhor pontuação) para chegar a um resultado final.
Escala seqüencial: O modelo gera iterativamente uma resposta e usa o feedback de um crítico (potencialmente do próprio modelo) para refinar a resposta nas tentativas subsequentes.

Essas abordagens foram testadas em oito conjuntos de dados desafiadores de referência, cobrindo uma ampla gama de tarefas que se beneficiam da solução passo a passo: raciocínio de matemática e caule (AIME, Omni-Math, GPQA), Planejamento do calendário (BA-calendário), Problemas de NP-Hard (3SAT, TSP), navegação (Maze) e Razão Spatial) e Spatial) e Razão Spatial) e Spatial Rachoining (Spatial.

Vários parâmetros de referência incluíram problemas com diferentes níveis de dificuldade, permitindo uma compreensão mais sutil de como o escala se comporta à medida que os problemas se tornam mais difíceis.

“A disponibilidade de tags de dificuldade para omni-math, TSP, 3SAT e BA-Calendar nos permite analisar como a precisão e o uso do token escalam com dificuldade em escalar em tempo de inferência, que é uma perspectiva que ainda é subexplorada”, escreveram os pesquisadores no artigo detalhando seus resultados.

Os pesquisadores avaliaram a fronteira de Pareto do raciocínio LLM, analisando a precisão e o custo computacional (ou seja, o número de tokens gerados). Isso ajuda a identificar como os modelos alcançam seus resultados com eficiência.

Esqualamento em tempo de inferência Pareto — *Crédito da fronteira de escala de tempo de inferência Pareto: arxiv*

Eles também introduziram a medida “lacuna convencional para o raciocínio”, que compara o melhor desempenho possível de um modelo convencional (usando uma seleção ideal de “melhor de N”) com o desempenho médio de um modelo de raciocínio, estimando os ganhos potenciais alcançáveis por meio de melhores técnicas de treinamento ou verificação.

Mais computação nem sempre

O estudo forneceu várias idéias cruciais que desafiam as suposições comuns sobre a escala de tempo de inferência:

Os benefícios variam significativamente: Enquanto os modelos sintonizados para o raciocínio geralmente superam os convencionais nessas tarefas, o grau de melhoria varia muito, dependendo do domínio e da tarefa específicos. Os ganhos geralmente diminuem à medida que a complexidade do problema aumenta. Por exemplo, as melhorias de desempenho observadas nos problemas matemáticas nem sempre se traduzem igualmente em tarefas científicas de raciocínio ou planejamento.

A ineficiência do token é o rife: Os pesquisadores observaram alta variabilidade no consumo de token, mesmo entre modelos que atingem precisão semelhante. Por exemplo, na referência matemática do AIME 2025, o Deepseek-R1 usou mais de cinco vezes mais tokens do que o claude de 3,7 sonetos para uma precisão média aproximadamente comparável.

Mais tokens não levam a maior precisão: Ao contrário da idéia intuitiva de que cadeias de raciocínio mais longas significam melhor raciocínio, o estudo descobriu que isso nem sempre é verdade. “Surpreendentemente, também observamos que gerações mais longas em relação ao mesmo modelo podem às vezes ser um indicador de modelos que lutam, em vez de melhorar a reflexão”, afirma o artigo. “Da mesma forma, ao comparar diferentes modelos de raciocínio, o uso mais alto de token nem sempre é associado a uma melhor precisão. Essas descobertas motivam a necessidade de abordagens de escala mais intencionais e econômicas”.

Custo não -determinismo: Talvez o mais preocupante para os usuários corporativos, consultas repetidas para o mesmo modelo para o mesmo problema possa resultar em uso de token altamente variável. Isso significa que o custo da execução de uma consulta pode flutuar significativamente, mesmo quando o modelo fornece consistentemente a resposta correta.

variação nas saídas do modelo — *Variação no comprimento da resposta (picos mostram menor variação) Crédito: arxiv*

O potencial nos mecanismos de verificação: O desempenho em escala melhorou consistentemente em todos os modelos e benchmarks quando simulado com um “verificador perfeito” (usando os resultados dos melhores do N).

Os modelos convencionais às vezes correspondem aos modelos de raciocínio: Ao aumentar significativamente as chamadas de inferência (até 50x a mais em alguns experimentos), modelos convencionais como o GPT-4O às vezes podem abordar os níveis de desempenho de modelos de raciocínio dedicados, particularmente em tarefas menos complexas. No entanto, esses ganhos diminuíram rapidamente em ambientes altamente complexos, indicando que a escala de força bruta tem seus limites.

GPT-4O de escala no tempo de inferência — *Em algumas tarefas, a precisão do GPT-4O continua a melhorar com a escala paralela e seqüencial. Crédito: Arxiv*

Implicações para a empresa

Esses achados têm peso significativo para os desenvolvedores e adotantes da LLMS. A questão do “não -determinismo de custo” é particularmente acentuada e dificulta o orçamento. Como os pesquisadores apontam: “Idealmente, desenvolvedores e usuários preferem modelos para os quais o desvio padrão no uso de token por instância é baixo para previsibilidade de custos”.

“O perfil que fazemos (o estudo) pode ser útil para os desenvolvedores como uma ferramenta para escolher quais modelos são menos voláteis para o mesmo prompt ou para diferentes avisos”, disse Besmira Nushi, gerente de pesquisa principal da Microsoft Research, à VentureBeat. “Idealmente, alguém gostaria de escolher um modelo com baixo desvio padrão para entradas corretas.”

*Modelos que atingem o pico azul para a esquerda geram consistentemente o mesmo número de tokens no crédito de tarefa fornecida: arxiv*

O estudo também fornece boas informações sobre a correlação entre a precisão e o comprimento da resposta de um modelo. Por exemplo, o diagrama a seguir mostra que as consultas matemáticas acima ~ 11.000 comprimentos de token têm uma chance muito fina de estar correto, e essas gerações devem ser interrompidas nesse ponto ou reiniciadas com algum feedback seqüencial. No entanto, Nushi ressalta que os modelos que permitem essas mitigações post hoc também têm uma separação mais limpa entre amostras corretas e incorretas.

“Por fim, também é de responsabilidade dos construtores de modelos pensar em reduzir a precisão e custar o não determinismo, e esperamos que muito disso aconteça à medida que os métodos ficam mais maduros”, disse Nushi. “Juntamente com o não -determinismo do custo, também se aplica a precisão do não -determinismo.”

Outra descoberta importante é o aumento consistente do desempenho dos verificadores perfeitos, que destaca uma área crítica para trabalhos futuros: construindo mecanismos de verificação robustos e amplamente aplicáveis.

“A disponibilidade de verificadores mais fortes pode ter diferentes tipos de impacto”, disse Nushi, como melhorar os métodos de treinamento fundamental para o raciocínio. “Se usado com eficiência, eles também podem reduzir os traços de raciocínio”.

Verificadores fortes também podem se tornar uma parte central das soluções da IA Agentic. Muitas partes interessadas da empresa já têm esses verificadores, que podem precisar ser reaproveitados para soluções mais agênticas, como solucionadores de SAT, verificadores de validade logística, etc.

“As perguntas para o futuro são como essas técnicas existentes podem ser combinadas com interfaces orientadas a IA e qual é o idioma que conecta os dois”, disse Nushi. “A necessidade de conectar os dois vem do fato de que os usuários nem sempre formulam suas consultas de maneira formal, eles desejam usar uma interface de linguagem natural e esperar as soluções em um formato semelhante ou em uma ação final (por exemplo, propõe um convite para uma reunião)”.

Insights diários sobre casos de uso de negócios com VB diariamente

Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais boletins de VB aqui.

Ocorreu um erro.