A arquitetura de contexto está substituindo o RAG à medida que a IA agente leva a recuperação empresarial ao seu limite

A arquitetura de contexto está substituindo o RAG à medida que a IA agente leva a recuperação empresarial ao seu limite

Redis construiu seu nome como a camada de cache que evitava que os aplicativos da web entrassem em colapso sob carga. O problema que visa agora tem a mesma estrutura, mas é mais difícil de resolver: os agentes de IA de produção falham não porque os modelos estão errados, mas porque os dados por baixo deles estão dispersos, obsoletos e estruturados para humanos e não para máquinas. Os pipelines de recuperação criados para consultas únicas não podem absorver o volume gerado pelos agentes.

A lacuna que o Redis visa é estrutural: os agentes fazem muito mais solicitações de dados do que os usuários humanos, mas a maioria das camadas de recuperação foram construídas para o problema em escala humana. O Redis Iris, lançado na segunda-feira, é a resposta da empresa: uma plataforma de contexto e memória que fica entre um agente e os dados de que ele precisa para agir. A plataforma combina ingestão de dados em tempo real, uma interface semântica que gera automaticamente ferramentas MCP a partir de modelos de dados de negócios e um servidor de memória de agente construído no Redis Flex, um mecanismo de armazenamento reescrito que executa 99% dos dados em flash por um décimo do custo apenas do armazenamento na memória.

O anúncio chega no momento em que a infraestrutura RAG empresarial está em transição ativa. Pulso VB do primeiro trimestre de 2026 da VentureBeat O RAG Infrastructure Market Tracker descobriu que a intenção do comprador de adotar a recuperação híbrida triplicou de 10,3% para 33,3% entre janeiro e março. A otimização da recuperação ultrapassou a avaliação como a principal prioridade de investimento empresarial pela primeira vez. As pilhas de recuperação interna personalizada aumentaram de 24,1% para 35,6% à medida que as empresas superaram as opções disponíveis no mercado. A Redis não é o único fornecedor de infraestrutura que lê esses sinais – vários provedores de plataformas de dados se reposicionaram em torno das camadas de contexto do agente nas últimas semanas.

O descompasso de escala é o argumento estrutural por trás do lançamento.

"As empresas terão muito mais agentes do que seres humanos," Rowan Trollope, CEO da Redis, disse VentureBeat. "Ordens de magnitude mais agentes do que seres humanos significam ordens de magnitude mais carga nos sistemas back-end."

Do cache ao contexto

Trollope traça o paralelo com a era móvel: quando back-ends legados criados para caixas de agências de repente tiveram que atender a um milhão de usuários de smartphones, o Redis se tornou a camada de cache que absorveu a carga sem uma reconstrução completa.

A diferença desta vez é que os agentes não podem escrever seu próprio middleware. Na era móvel, um desenvolvedor sentava-se com um administrador de banco de dados, identificava as consultas necessárias para um aplicativo e codificava a lógica de cache em uma camada de middleware. Os agentes não podem fazer isso. Eles precisam encontrar os dados certos em tempo de execução, por meio de interfaces criadas antecipadamente para eles, ou pararão.

"É como a analogia do supermercado na geladeira," ele disse. "Se toda vez que você tiver que ir fazer seu sanduíche tiver que correr até o supermercado para pegar a comida, isso não é muito eficiente. Você coloca uma geladeira em cada casa, guarda um pouco de comida lá. E é aí que ainda tendemos a existir na pilha de infraestrutura."

O que o Redis Iris inclui

O Iris fornece cinco componentes que juntos cobrem ingestão de dados, acesso semântico, memória e cache.

Integração de dados Redis. Agora em disponibilidade geral. RDI usa pipelines de captura de dados alterados para sincronizar continuamente dados de bancos de dados relacionais, armazéns e armazenamentos de documentos no Redis, com conectores para Oracle, Snowflake, Databricks e Postgres.

Recuperador de contexto. Agora em visualização. Os desenvolvedores definem um modelo semântico de dados de negócios usando modelos pydantic e o Redis gera automaticamente ferramentas MCP usadas pelos agentes para consultá-los diretamente, com controles de acesso em nível de linha aplicados no lado do servidor. Trollope descreve a mudança do RAG clássico como uma inversão direcional. "É apenas uma questão de permitir que o agente extraia os dados em vez de pressupor e colocá-los no pipeline," ele disse.

Memória do Agente. Agora em visualização. Armazena o estado de curto e longo prazo nas sessões para que os agentes transportem o contexto sem derivá-lo novamente a cada turno.

Redis Flex. Um mecanismo de armazenamento reescrito que executa 99% dos dados em SSDs e 1% em RAM, proporcionando recuperação em escala de petabytes com latências inferiores a milissegundos.

Pesquisa Redis e LangCache. A espinha dorsal de recuperação e cache semântico abaixo da plataforma. LangCache reduz chamadas de modelo redundantes armazenando em cache as respostas de prompt.

O que dizem os analistas

A indústria de dados geralmente está caminhando na mesma direção agora. Todo grande fornecedor de banco de dados está apresentando um argumento de camada de contexto.

Fornecedores de banco de dados tradicionais incluindo Oráculo estão integrando camadas de contexto e memória para trazer bancos de dados relacionais para a era da IA ​​de agência. Fornecedores de bancos de dados vetoriais específicos, incluindo Pinha estão fazendo o mesmo, construindo uma nova camada de conhecimento para o contexto de IA agente. Camadas de contexto autônomas como Retrospectiva também fazem parte do cenário emergente.

Trollope enquadra a posição da Redis como estruturalmente diferente daquela concorrência.

"Para ganharmos, ninguém mais precisa perder," ele disse. Muitas implantações do Redis já executam MongoDB ou Oracle como sistema back-end de registro. O Iris reflete e armazena em cache esses sistemas, em vez de deslocá-los. Redis está lançando Iris no mercado Snowflake com conectores nativos.

Stephanie Walter, líder prática de AI Stack da HyperFRAME Research, expõe o contexto do mercado de forma clara. "O mercado está convergindo para a mesma conclusão: os agentes não precisam apenas de mais tokens ou de modelos melhores. Eles precisam de um contexto governado, atual e de baixa latência," disse Valter.

Sua leitura sobre a diferenciação do Redis se concentra em onde o Redis já está na pilha, que está próximo do tempo de execução, do estado operacional sensível à latência e dos dados em tempo real.

"O argumento de venda não é ‘melhor RAG’, mas ‘os agentes precisam de contexto ao vivo, memória e recuperação rápida enquanto estão realmente trabalhando," ela disse.

Seja Redis ou outro fornecedor, toda tecnologia de camada de contexto enfrentará um desafio de governança para ter sucesso.

"A Agentic AI não crescerá na empresa se cada agente se tornar um novo centro de custo, um novo risco de acesso a dados e uma nova exceção de governança." ela disse. "As camadas de contexto vencedoras serão aquelas que tornarão a execução dos agentes mais rápida, barata e segura."

Para IA clínica em tempo real, errar no contexto não é uma opção

A Mangoes.ai é uma empresa que já teve que responder a essas perguntas na produção, em condições em que o custo de interpretar mal o contexto é medido nos resultados dos pacientes.

Amit Lamba, fundador e CEO da Mangoes.ai, administra uma plataforma de IA de voz em tempo real implantada em grandes instalações de saúde, onde pacientes e médicos fazem perguntas ao vivo sobre tratamento, agendamento e histórico de casos. Mangoes.ai construiu sua pilha nativamente no Redis desde o início.

"A recuperação, a memória e o estado da sessão são executados no Redis, portanto, não estamos juntando ferramentas separadas e esperando que elas se comuniquem," Lamba disse.

O problema que a capacidade de memória dinâmica do Iris aborda é o que acontece em uma sessão complexa.

"Pense em uma sessão de terapia em grupo de uma hora," Lamba disse. "Você precisa saber quem disse o quê, quando e ser capaz de transmitir as informações corretas ao terapeuta no momento. Esse não é um problema simples de recuperação."

A plataforma opera vários agentes especializados em paralelo, um para identificação de entidades, um para raciocínio de relacionamento e outro para integração de histórico de casos.

"A capacidade de memória dinâmica mapeia quase perfeitamente o problema que estamos resolvendo," Lamba disse.

O que isso significa para as empresas

Para empresas que construíram sua pilha de IA em torno do RAG, a camada de recuperação que as levou à produção não é mais suficiente para mantê-las lá

A era RAG está dando lugar à arquitetura de contexto. O modelo RAG clássico enviava dados para o agente antes que o modelo fosse chamado. As implantações de produção estão mudando isso: os agentes extraem o que precisam em tempo de execução por meio de chamadas de ferramentas, tratando a camada de dados como um recurso ativo em vez de uma carga útil pré-carregada. As equipes que ainda otimizam os pipelines RAG estão resolvendo o problema do ano passado.

A camada semântica é agora a infraestrutura de produção. O modelo que define as entidades de negócios, seus relacionamentos e as regras de acesso entre elas precisa ser construído, versionado e mantido com a mesma disciplina de um pipeline de dados. A maioria das organizações não possui pessoal ou estrutura para esse trabalho. As empresas que definem sua arquitetura de contexto agora são aquelas que não terão que reconstruí-la quando as cargas de trabalho dos agentes forem dimensionadas.

O orçamento já está se movendo. Os dados do VB Pulse Q1 2026 mostram que o investimento em otimização de recuperação aumentou de 19% para 28,9% ao longo do trimestre, ultrapassando os gastos com avaliação pela primeira vez. As organizações que passaram o ano anterior medindo a qualidade da recuperação agora estão gastando para corrigi-la. A camada de contexto é uma decisão de aquisição ativa, não um item de roteiro.

"A primeira pergunta do comprador não deve ser ‘Preciso de um banco de dados vetorial, contexto longo, memória ou mecanismo de contexto?’ Deveria ser ‘O que este agente precisa saber, quão atual deve ser esse conhecimento, quem tem permissão para acessá-lo e quanto custa cada recuperação?’" disse Valter.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *