Pesquisa mostra que ‘mais agentes’ não é um caminho confiável para melhores sistemas de IA empresarial

Edição - Istoé TECH

Pesquisadores do Google e do MIT conduziram um análise abrangente de sistemas agentes e a dinâmica entre o número de agentes, estrutura de coordenação, capacidade do modelo e propriedades da tarefa. Embora o sentimento predominante na indústria tenha sido "mais agentes é tudo que você precisa," a pesquisa sugere que o dimensionamento das equipes de agentes não é um caminho garantido para um melhor desempenho.

Com base em suas descobertas, os pesquisadores definiram um modelo quantitativo que pode prever o desempenho de um sistema agente em uma tarefa invisível. O seu trabalho revela que adicionar mais agentes e ferramentas funciona como uma faca de dois gumes: embora possa desbloquear o desempenho em problemas específicos, muitas vezes introduz despesas desnecessárias e diminui os retornos sobre outros.

Essas descobertas oferecem um roteiro crítico para desenvolvedores e tomadores de decisão empresariais que tentam determinar quando implantar arquiteturas multiagentes complexas em vez de soluções de agente único mais simples e econômicas.

O estado dos sistemas agentes

Para compreender as implicações do estudo, é necessário distinguir entre as duas principais arquiteturas em uso atualmente. Os sistemas de agente único (SAS) apresentam um locus de raciocínio solitário. Nesta configuração, toda percepção, planejamento e ação ocorrem dentro de um único loop sequencial controlado por uma instância LLM, mesmo quando o sistema está usando ferramentas, autorreflexão ou raciocínio de cadeia de pensamento (CoT). Por outro lado, um sistema multiagente (MAS) compreende vários agentes apoiados por LLM que se comunicam por meio de passagem estruturada de mensagens, memória compartilhada ou protocolos orquestrados.

O setor empresarial tem visto um aumento no interesse em relação ao MASimpulsionado pela premissa de que a colaboração especializada pode superar consistentemente os sistemas de agente único. À medida que as tarefas crescem em complexidade e exigem interação sustentada com ambientes (por exemplo, assistentes de codificação ou bots de análise financeira), os desenvolvedores muitas vezes assumem que dividir o trabalho entre "especialista" agentes é a abordagem superior.

No entanto, os investigadores argumentam que, apesar desta rápida adoção, ainda não existe um quadro quantitativo de princípios para prever quando a adição de agentes amplifica o desempenho e quando o reduz.

Uma contribuição fundamental do artigo é a distinção entre "estático" e "agente" tarefas. Os pesquisadores aplicaram um "Lista de verificação de benchmark da Agentic" para diferenciar tarefas que exigem interações sustentadas em várias etapas, coleta iterativa de informações e refinamento de estratégia adaptativa daquelas que não o fazem. Esta distinção é vital porque as estratégias que funcionam para a resolução de problemas estáticos (como votar num questionário de codificação) muitas vezes falham quando aplicadas a verdadeiras tarefas de agente onde "sobrecarga de coordenação” e “propagação de erros” podem se espalhar por todo o processo de resolução de problemas.

Testando os limites da colaboração

Para isolar os efeitos específicos da arquitetura do sistema, os pesquisadores desenvolveram uma estrutura experimental rigorosa. Eles testaram 180 configurações exclusivas envolvendo cinco arquiteturas distintas, três famílias LLM (OpenAI, Google e Anthropic) e quatro benchmarks de agente. As arquiteturas incluíam um grupo de controle de agente único e quatro variantes multiagentes: independentes (agentes paralelos sem comunicação), centralizados (agentes subordinados a um orquestrador), descentralizados (debate ponto a ponto) e híbridos (uma mistura de hierarquia e comunicação entre pares).

O estudo foi desenhado para eliminar "implementação confunde" padronizando ferramentas, estruturas imediatas e orçamentos simbólicos. Isso garantiu que, se um sistema multiagente superasse um único agente, o ganho poderia ser atribuído à estrutura de coordenação, e não ao acesso a melhores ferramentas ou mais computação.

Os resultados desafiam a "mais é melhor" narrativa. A avaliação revela que a eficácia dos sistemas multiagentes é governada por "compensações quantificáveis entre propriedades arquitetônicas e características da tarefa." Os pesquisadores identificaram três padrões dominantes que impulsionam esses resultados:

Compensação entre coordenação de ferramentas: Sob orçamentos computacionais fixos, os sistemas multiagentes sofrem de fragmentação de contexto. Quando um orçamento de computação é dividido entre vários agentes, cada agente fica com capacidade insuficiente para orquestração de ferramentas em comparação com um único agente que mantém um fluxo de memória unificado.

Consequentemente, em ambientes com muitas ferramentas e com mais de 10 ferramentas, a eficiência dos sistemas multiagentes cai drasticamente. O pesquisador descobriu que tarefas pesadas em ferramentas sofrem uma penalidade de eficiência de 2 a 6 vezes ao usar sistemas multiagentes em comparação com agentes únicos. Arquiteturas mais simples tornam-se paradoxalmente mais eficazes porque evitam a sobrecarga de coordenação que se agrava com a complexidade ambiental.

Saturação de capacidade: Os dados estabeleceram um limite empírico de aproximadamente 45% de precisão para o desempenho de um único agente. Quando uma linha de base de agente único excede esse nível, a adição de mais agentes normalmente produz retornos decrescentes ou negativos.

No entanto, o coautor Xin Liu, cientista pesquisador do Google e coautor do artigo, observou uma nuance crucial para os adotantes empresariais. "As empresas devem investir em ambos (sistemas de agente único e multiagente)”, disse ele à VentureBeat. “Melhores modelos básicos aumentam a linha de base, mas para tarefas com decomposição natural e potencial de paralelização (como nosso benchmark de Agente Financeiro com +80,9% de melhoria), a coordenação multiagente continua a fornecer valor substancial, independentemente da capacidade do modelo."

Erro dependente da topologia: A estrutura da equipe de agentes determina se os erros serão corrigidos ou multiplicados. Em "independente" sistemas onde os agentes trabalham em paralelo sem comunicação, os erros foram amplificados em 17,2 vezes em comparação com a linha de base de agente único. Em contraste, as arquiteturas centralizadas continham esta amplificação para 4,4 vezes.

"O principal diferencial é ter um gargalo de validação dedicado que intercepta erros antes que eles se propaguem para a saída final." disse o autor principal Yubin Kim, estudante de doutorado no MIT. "Para contradições lógicas, “centralizado” reduz a taxa de referência… (em) 36,4%… Para erros de omissão de contexto, “centralizado” reduz… (em) 66,8%."

Insights acionáveis para implantação empresarial

Para desenvolvedores e líderes empresariais, essas descobertas oferecem diretrizes específicas para a construção de sistemas de IA mais eficientes.

O "sequencialidade" regra: Antes de montar uma equipe de agentes, analise a estrutura de dependências da sua tarefa. O preditor mais forte de falha multiagente são as tarefas estritamente sequenciais. Se a Etapa B depende inteiramente da execução perfeita da Etapa A, um sistema de agente único é provavelmente a melhor escolha. Nesses cenários, os erros se propagam em cascata em vez de serem cancelados. Por outro lado, se a tarefa for paralela ou decomponível (por exemplo, analisar três relatórios financeiros diferentes simultaneamente), os sistemas multiagentes oferecem ganhos enormes.
Não conserte o que não está quebrado: As empresas devem sempre comparar primeiro com um único agente. Se um sistema de agente único atingir uma taxa de sucesso superior a 45% em uma tarefa específica que não pode ser facilmente decomposta, a adição de mais agentes provavelmente degradará o desempenho e aumentará os custos sem agregar valor.
Conte suas APIs: Seja extremamente cauteloso ao aplicar sistemas multiagentes a tarefas que exigem muitas ferramentas distintas. A divisão de um orçamento de token entre vários agentes fragmenta sua memória e contexto. "Para integrações com muitas ferramentas com mais de aproximadamente 10 ferramentas, os sistemas de agente único são provavelmente preferíveis," Kim disse, observando que o estudo observou uma "Penalidade de eficiência de 2 a 6x" para variantes multiagentes nesses cenários.
Combine a topologia com o objetivo: Se for necessário um sistema multiagente, a topologia deverá corresponder ao objetivo específico. Para tarefas que exigem alta exatidão e precisão, como finanças ou codificação, a coordenação centralizada é superior porque o orquestrador fornece uma camada de verificação necessária. Para tarefas que exigem exploração, como navegação dinâmica na web, a coordenação descentralizada é excelente, permitindo que os agentes explorem diferentes caminhos simultaneamente.
O "Regra de 4": Embora possa ser tentador construir enxames massivos, o estudo descobriu que o tamanho efetivo das equipes está atualmente limitado a cerca de três ou quatro agentes. "O limite de três a quatro agentes que identificamos decorre de restrições mensuráveis de recursos," Kim disse. Além disso, a sobrecarga de comunicação cresce de forma superlinear (especificamente, com um expoente de 1,724), o que significa que o custo da coordenação ultrapassa rapidamente o valor do raciocínio acrescentado.

Olhando para o futuro: quebrando o limite de largura de banda

Embora as arquiteturas atuais atinjam um limite máximo para equipes pequenas, isso é provavelmente uma restrição dos protocolos atuais, e não um limite fundamental da IA. O limite efetivo dos sistemas multiagentes decorre do fato de que os agentes atualmente se comunicam de maneira densa e com uso intensivo de recursos.

“Acreditamos que esta é uma restrição atual, não um teto permanente”, disse Kim, apontando algumas inovações importantes que podem desbloquear o potencial da colaboração de agentes em grande escala:

Protocolos de comunicação esparsos: “Nossos dados mostram saturação de densidade de mensagens em aproximadamente 0,39 mensagens por turno, além das quais mensagens adicionais adicionam redundância em vez de informações novas. Um roteamento mais inteligente poderia reduzir a sobrecarga”, disse ele.

Decomposição hierárquica: Em vez de enxames planos de 100 agentes, estruturas de coordenação aninhadas poderiam particionar o gráfico de comunicação.

Coordenação assíncrona: “Nossos experimentos usaram protocolos síncronos, e projetos assíncronos podem reduzir a sobrecarga de bloqueio”, disse ele.

Roteamento com reconhecimento de capacidade: “Nossos experimentos de heterogeneidade sugerem que misturar estrategicamente as capacidades do modelo pode melhorar a eficiência”, disse Kim

Isso é algo pelo qual esperar em 2026. Até lá, para o arquiteto corporativo, os dados são claros: equipes menores, mais inteligentes e mais estruturadas vencem.

Fonte ==> Cyberseo