Nos últimos dois anos, a unidade fundamental do desenvolvimento da IA generativa tem sido a "conclusão."
Você envia um prompt de texto para um modelo, ele envia o texto de volta e a transação termina. Se quiser continuar a conversa, você deverá enviar todo o histórico de volta para a modelo. Esse "apátrida" arquitetura – incorporada pelo legado do Google generateContent endpoint – era perfeito para chatbots simples. Mas à medida que os desenvolvedores avançam em direção a agentes autônomos que usam ferramentas, mantêm estados complexos e "pensar" em horizontes longos, esse modelo sem Estado tornou-se um estrangulamento distinto.
Na semana passada, o Google DeepMind finalmente resolveu essa lacuna de infraestrutura com o lançamento beta público da API Interactions (/interactions).
Embora a OpenAI tenha iniciado essa mudança em março de 2025 com sua API Responses, a entrada do Google sinaliza seus próprios esforços para avançar no estado da arte. A API Interactions não é apenas uma ferramenta de gerenciamento de estado; é uma interface unificada projetada para tratar LLMs menos como geradores de texto e mais como sistemas operacionais remotos.
O modelo de ‘computação remota’
A principal inovação da API Interactions é a introdução do estado do lado do servidor como comportamento padrão.
Anteriormente, um desenvolvedor que criava um agente complexo tinha que gerenciar manualmente uma lista JSON crescente de cada "usuário" e "modelo" por sua vez, enviando megabytes de histórico para frente e para trás a cada solicitação. Com a nova API, os desenvolvedores simplesmente passam um previous_interaction_id. A infraestrutura do Google retém o histórico de conversas, os resultados das ferramentas e "pensamento" processos em sua extremidade.
"Os modelos estão se tornando sistemas e, com o tempo, podem até se tornar eles próprios agentes," escreveram Ali Çevik e Philipp Schmid da DeepMind, em uma postagem oficial do blog da empresa sobre o novo paradigma. "Tentando forçar essas capacidades em generateContent teria resultado em uma API excessivamente complexa e frágil."
Essa mudança permite a execução em segundo plano, um recurso crítico para a era da agência. Fluxos de trabalho complexos, como navegar na Web por uma hora para sintetizar um relatório, geralmente acionam tempos limite de HTTP em APIs padrão. A API Interactions permite que os desenvolvedores acionem um agente com background=true, desconecte e pesquise o resultado mais tarde. Ele efetivamente transforma a API em uma fila de tarefas para inteligência.
Nativo "Pesquisa Profunda" e suporte MCP
O Google está usando essa nova infraestrutura para entregar seu primeiro agente integrado: Gemini Deep Research.
Acessível através do mesmo /interactions endpoint, este agente é capaz de executar "tarefas de pesquisa de longo horizonte." Ao contrário de um modelo padrão que prevê o próximo token com base no seu prompt, o agente Deep Research executa um ciclo de pesquisas, leitura e síntese.
Crucialmente, o Google também está adotando o ecossistema aberto, adicionando suporte nativo ao Model Context Protocol (MCP). Isso permite que os modelos Gemini chamem diretamente ferramentas externas hospedadas em servidores remotos, como um serviço meteorológico ou um banco de dados, sem que o desenvolvedor precise escrever um código de cola personalizado para analisar as chamadas de ferramenta.
A paisagem: Google se junta à OpenAI na era ‘Stateful’
O Google está sem dúvida tentando se atualizar, mas com um toque filosófico distinto. A OpenAI abandonou a apatridia há nove meses com o lançamento da API Responses em março de 2025.
Embora ambos os gigantes estejam resolvendo o problema do inchaço do contexto, suas soluções divergem em termos de transparência:
OpenAI (a abordagem de compressão): A API de respostas da OpenAI introduziu a compactação – um recurso que reduz o histórico de conversas, substituindo saídas de ferramentas e cadeias de raciocínio por opacas "itens de compactação criptografados." Isso prioriza a eficiência do token, mas cria um "caixa preta" onde o raciocínio anterior do modelo está oculto ao desenvolvedor.
Google (a abordagem hospedada): A API de interações do Google mantém o histórico completo disponível e combinável. O modelo de dados permite que os desenvolvedores "depurar, manipular, transmitir e raciocinar sobre mensagens intercaladas." Ele prioriza a inspecionabilidade em vez da compactação.
Modelos Suportados e Disponibilidade
A API Interactions está atualmente em versão beta pública (documentação aqui) e está disponível imediatamente através do Google AI Studio. Ele oferece suporte a todo o espectro de modelos de última geração do Google, garantindo que os desenvolvedores possam combinar o tamanho certo do modelo com sua tarefa específica de agente:
-
Gêmeos 3.0: Pré-visualização do Gêmeos 3 Pro.
-
Gêmeos 2.5: Flash, Flash Lite e Pro.
-
Agentes: Visualização de pesquisa profunda (
deep-research-pro-preview-12-2025).
Comercialmente, a API se integra à estrutura de preços existente do Google: você paga taxas padrão por tokens de entrada e saída com base no modelo selecionado. No entanto, a proposta de valor muda com as novas políticas de retenção de dados. Como esta API tem estado, o Google deve armazenar seu histórico de interação para ativar recursos como cache implícito e recuperação de contexto.
O acesso a esse armazenamento é determinado pelo seu nível. Os desenvolvedores no nível gratuito estão limitados a uma política de retenção de 1 dia, adequada para testes efêmeros, mas insuficiente para memória de longo prazo do agente.
Os desenvolvedores no nível pago desbloqueiam uma política de retenção de 55 dias. Essa retenção estendida não serve apenas para auditoria; ele reduz efetivamente o custo total de propriedade, maximizando os acessos ao cache. Ao manter a história "quente" no servidor por quase dois meses, você evita pagar para reprocessar enormes janelas de contexto para usuários recorrentes, tornando o nível pago significativamente mais eficiente para agentes de nível de produção.
Observação: como esta é uma versão beta, o Google informou que os recursos e esquemas estão sujeitos a alterações importantes.
‘Você está interagindo com um sistema’
Sam Witteveen, desenvolvedor especialista em aprendizado de máquina do Google e CEO da Red Dragon AI, vê este lançamento como uma evolução necessária da pilha de desenvolvedores.
"Se voltarmos na história… a ideia era simples entrada, saída de texto," Witteveen observou em uma análise técnica do lançamento no YouTube. "Mas agora… você está interagindo com um sistema. Um sistema que pode usar vários modelos, fazer vários loops de chamadas, usar ferramentas e executar código no backend."
Witteveen destacou o benefício econômico imediato desta arquitetura: Cache Implícito. Como o histórico de conversas fica nos servidores do Google, os desenvolvedores não são cobrados por reenviar o mesmo contexto repetidamente. "Você não precisa pagar tanto pelos tokens que está chamando," ele explicou.
No entanto, a liberação não ocorre sem atrito. Witteveen criticou a implementação atual do sistema de citações do agente da Deep Research. Embora o agente forneça fontes, os URLs retornados geralmente são agrupados em links de redirecionamento internos do Google/Vertex AI, em vez de URLs brutos e utilizáveis.
"Minha maior reclamação é que… esses URLs, se eu salvá-los e tentar usá-los em uma sessão diferente, eles não funcionarão," Witteveen avisou. "Se eu quiser fazer um relatório para alguém com citações, quero que ele possa clicar nas URLs de um arquivo PDF… Ter algo como medium.com como citação (sem o link direto) não é muito bom."
O que isso significa para sua equipe
Para engenheiros líderes de IA focados na rápida implantação e ajuste fino de modelos, esta versão oferece uma solução arquitetural direta para o persistente "tempo esgotado" problema: execução em segundo plano.
Em vez de criar manipuladores assíncronos complexos ou gerenciar filas de tarefas separadas para tarefas de raciocínio de longa duração, agora você pode transferir essa complexidade diretamente para o Google. No entanto, esta conveniência introduz uma compensação estratégica.
Embora o novo agente de Investigação Profunda permita a rápida implantação de capacidades de investigação sofisticadas, funciona como um "caixa preta" em comparação com fluxos LangChain ou LangGraph personalizados. Os engenheiros deveriam prototipar um "pensamento lento" recurso usando o background=true parâmetro para avaliar se a velocidade de implementação compensa a perda de controle refinado sobre o ciclo de pesquisa.
Os engenheiros seniores que gerenciam a orquestração e o orçamento da IA descobrirão que a mudança para o estado do lado do servidor por meio de previous_interaction_id desbloqueia o cache implícito, uma grande vitória para métricas de custo e latência.
Ao fazer referência ao histórico armazenado nos servidores do Google, você evita automaticamente os custos de token associados ao reenvio de enormes janelas de contexto, abordando diretamente as restrições orçamentárias e mantendo o alto desempenho.
O desafio aqui reside na cadeia de abastecimento; incorporar o Remote MCP (Model Context Protocol) significa que seus agentes estão se conectando diretamente a ferramentas externas, exigindo que você valide rigorosamente se esses serviços remotos são seguros e autenticados. É hora de auditar seu gasto atual de token no reenvio do histórico de conversas. Se for alto, priorizar uma migração para a API Interactions com estado pode gerar economias significativas.
Para engenheiros de dados seniores, a API Interactions oferece um modelo de dados mais robusto do que os logs de texto bruto. O esquema estruturado permite que históricos complexos sejam depurados e fundamentados, melhorando a integridade geral dos dados em seus pipelines. No entanto, você deve permanecer vigilante em relação à qualidade dos dados, especificamente à questão levantada pelo especialista Sam Witteveen em relação às citações.
O agente da Deep Research retorna atualmente "envolto" URLs que podem expirar ou quebrar, em vez de links de origem brutos. Se seus pipelines dependem de extração ou arquivamento dessas fontes, talvez seja necessário criar uma etapa de limpeza para extrair os URLs utilizáveis. Você também deve testar os recursos de saída estruturados (response_format) para ver se eles podem substituir a análise de regex frágil em seus pipelines ETL atuais.
Finalmente, para os Diretores de Segurança de TI, a transferência do estado para os servidores centralizados do Google representa um paradoxo. Ele pode melhorar a segurança mantendo as chaves de API e o histórico de conversas fora dos dispositivos dos clientes, mas introduz um novo risco de residência de dados. A verificação crítica aqui são as políticas de retenção de dados do Google: enquanto o nível gratuito retém os dados por apenas um dia, o nível pago retém o histórico de interação por 55 dias.
Isso contrasta com o da OpenAI "Retenção zero de dados" (ZDR) opções empresariais. Você deve garantir que o armazenamento do histórico de conversas confidenciais por quase dois meses esteja em conformidade com sua governança interna. Se isso violar sua política, você deverá configurar chamadas com store=falseembora isso desabilite os recursos com estado — e os benefícios de custo — que tornam essa nova API valiosa.
Fonte ==> Cyberseo