A nova estrutura de memória agente usa 118 mil tokens por consulta. LangMem queima 3,26M.

A nova estrutura de memória agente usa 118 mil tokens por consulta. LangMem queima 3,26M.

O raciocínio de longo horizonte expõe uma fraqueza central nos agentes de IA: as janelas de contexto enchem-se rapidamente e os pipelines de recuperação retornam ruído em vez de sinal.

Para resolver isso, pesquisadores da Universidade Nacional de Cingapura desenvolveram o MRAgent, um framework que abandona a estrutura estática "recuperar-então-razão" abordagem. Em vez disso, utiliza um mecanismo que permite a um agente desenvolver dinamicamente a sua memória com base no acúmulo de evidências.

Esta reconstrução de memória em várias etapas é integrada ao processo de raciocínio do modelo de linguagem grande (LLM). Embora não seja a única estrutura neste espaço, o MRAgent reduz significativamente o consumo de tokens e os custos de tempo de execução em comparação com outras abordagens de gerenciamento de memória de agente.

Os limites da recuperação passiva em tarefas de longo horizonte

Em pipelines de recuperação clássicos, os documentos são recuperados por meio de pesquisa vetorial ou travessia de gráfico e repassados ​​a um LLM para raciocínio. Esta abordagem passiva falha porque não consegue combinar o raciocínio com o acesso à memória, criando três grandes gargalos:

  • Esses sistemas não podem revisar sua estratégia de recuperação no meio do raciocínio. Se um agente buscar um documento e descobrir uma pista faltante crucial – uma data ou pessoa específica – ele não terá como emitir uma nova consulta com base nessa descoberta.

  • Pontuações de similaridade fixas e expansões gráficas predefinidas retornam correspondências de nível superficial que inundam a janela de contexto do LLM com ruído irrelevante e raciocínio degradante.

  • Os sistemas atuais dependem fortemente de estruturas pré-construídas, como resultados top-k e funções de relevância estática, limitando a flexibilidade necessária para escalar através de interações de usuário imprevisíveis e de longo horizonte.

Os pesquisadores argumentam que, para superar essas limitações, os desenvolvedores devem mudar para um “processo de reconstrução ativa e associativa”, um conceito inspirado na neurociência cognitiva.

Sob este paradigma, a recuperação da memória se desenvolve sequencialmente, em vez de operar como uma leitura passiva de um banco de dados estático. O sistema começa com gatilhos pequenos e específicos a partir do prompt do usuário, como o nome de uma pessoa, uma ação ou um lugar. Essas dicas iniciais apontam para a conexão de conceitos ou categorias, em vez de enormes blocos de texto.

Seguindo esses passos de metadados, o agente reúne pequenas evidências, uma por uma. Ele usa cada nova informação para orientar sua próxima etapa até reunir com sucesso a história completa e precisa.

Como o MRAgent implementa a reconstrução de memória ativa

Em vez de ver a memória como um banco de dados estático, o MRAgent (Memory Reasoning Architecture for LLM Agents) a trata como um ambiente interativo. Ao processar uma consulta complexa, o agente usa as habilidades de raciocínio do backbone LLM para explorar vários caminhos de recuperação de candidatos em um gráfico de memória estruturado.

Em cada etapa, o LLM avalia as evidências intermediárias que reuniu e as utiliza para otimizar iterativamente sua pesquisa. Infere novas restrições de pesquisa, segue os caminhos com as melhores informações e remove ramificações irrelevantes. Isso permite que o MRAgent reúna informações profundamente enterradas sem preencher o contexto do LLM com ruído.

Para tornar esta exploração ativa computacionalmente eficiente e escalável, o framework organiza seu banco de dados usando um mecanismo “Cue-Tag-Content”. Isso opera como um gráfico associativo multicamadas com três tipos de nós:

  • Dicas: palavras-chave refinadas, como entidades ou atributos contextuais extraídos de interações do usuário.

  • Contente: As unidades de memória armazenadas reais. Estes são divididos em camadas multigranulares, como memória episódica para eventos concretos e memória semântica para fatos estáveis ​​e preferências do usuário.

  • Etiquetas: Pontes semânticas que resumem as associações relacionais entre Dicas e Conteúdo específicos.

Essa estrutura permite um processo de recuperação em duas etapas altamente eficiente. O LLM primeiro navega das sugestões para as tags candidatas. Como as Tags expõem explicitamente as relações semânticas e as associações estruturais dos dados, o agente avalia esses breves resumos para julgar sua relevância. O LLM identifica caminhos de travessia promissores e descarta ramificações irrelevantes antes de gastar computação e tokens de prompt para acessar o conteúdo pesado e detalhado da memória.

Por exemplo, um usuário pode perguntar a um agente de IA, "Como Nate usou o prêmio em dinheiro quando ganhou seu terceiro torneio de videogame?"

  • O MRAgent primeiro extrai dicas iniciais refinadas do prompt, como "Nate," "torneio de videogame," e "ganhar."

  • O agente mapeia essas dicas iniciais para o gráfico de memória e analisa os Tags associativos disponíveis conectados a eles. O agente vê tags como "Vitória no Torneio" e "Participação no Torneio.” Como se preocupa apenas com o que a pessoa fez depois de vencer o campeonato, o MRAgent abandona a etiqueta de participação no torneio e busca a etiqueta de vitória.

  • O agente recupera o conteúdo episódico vinculado ao par Cue-Tag escolhido, recuperando três episódios de memória distintos em que Nate venceu um torneio.

  • O MRAgent analisa as três memórias, decide que uma delas em particular é relevante para a consulta e descarta as outras duas.

  • Com essas informações, ele atualiza suas pistas e inicia outra rodada de descobertas e podas. A partir da nova memória episódica recuperada, o agente adiciona “ganhos de torneio” às suas dicas e usa isso para percorrer novos rótulos e se concentrar em novas memórias. Ele repete esse processo até reunir informações suficientes para responder à consulta, que pode ser algo como “Nate economizou o dinheiro”.

Desempenho do MRAgent em benchmarks do setor

O MRAgent opera junto com várias outras estruturas que abordam a construção de memória agente. As alternativas incluem A-MEM, uma estrutura de memória agente baseada em gráfico, e MemoryOS, uma estrutura de memória hierárquica. Outras estruturas de memória persistente incluem LangMem e Mem0.

Os pesquisadores testaram o MRAgent nos benchmarks da indústria LoCoMo e LongMemEval. Eles testam as habilidades dos agentes para resolver dúvidas sobre tarefas e conversas de longo prazo em dezenas de sessões e centenas de diálogos. Os modelos de backbone utilizados foram Gemini 2.5 Flash e Claude Sonnet 4.5. O sistema foi testado em relação aos padrões RAG, A-MEM, MemoryOS, LangMem e Mem0.

O MRAgent superou consistentemente todas as linhas de base em ambos os modelos e todos os tipos de perguntas por uma margem significativa.

No entanto, para desenvolvedores empresariais, a métrica mais crítica costuma ser o custo computacional. Nos testes LongMemEval, o MRAgent reduziu o consumo de tokens de prompt para apenas 118 mil por amostra. Em comparação, A-Mem consumiu 632 mil tokens e LangMem queimou 3,26 milhões de tokens por consulta. O MRAgent também reduziu efetivamente pela metade o tempo de execução em comparação com o A-Mem, caindo de 1.122 segundos para 586 segundos.

O que torna o MRAgent eficiente na prática é o seu comportamento sob demanda. Avaliar tags e eliminar caminhos irrelevantes antes da recuperação economiza dinheiro e espaço de contexto. Além disso, o sistema avalia autonomamente o seu contexto acumulado e sabe inerentemente quando parar a pesquisa, evitando completamente a exploração redundante de dados.

Captura de implementação e desenvolvimento

Embora o MRAgent seja altamente eficaz, a estrutura Cue-Tag-Content precisa ser preparada antes que o agente possa consultá-lo. Os desenvolvedores devem descobrir como arquitetar o banco de dados de memória subjacente para permitir que o LLM navegue com eficiência por itens associativos e elimine caminhos irrelevantes sem aumentar os custos de computação.

Felizmente, os desenvolvedores não precisam rotular ou estruturar manualmente esses dados. Os autores projetaram o MRAgent com um pipeline de destilação automatizado que usa LLMs para processar históricos de interação brutos e preencher automaticamente o gráfico de memória. Para um desenvolvedor, o trabalho é implementar e orquestrar esse pipeline de ingestão automatizado, em vez de marcar os dados manualmente.

Você precisa configurar um trabalho em segundo plano ou pipeline de streaming que transmita interações brutas do usuário por meio de modelos de prompt para extrair esses metadados antes de armazená-los em seu banco de dados gráfico.

No entanto, os autores enfatizam que esta é uma fase de construção leve e o MRAgent mantém intencionalmente a ingestão simples.

Os autores lançaram o código no GitHub.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *