Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Wells Fargo tem silenciosamente Realizou o que a maioria das empresas ainda está sonhando: construir um sistema de IA generativo pronto para produção em larga escala que realmente funcione. Somente em 2024, o assistente de IA do banco, Fargo, lidou com 245,4 milhões Interações – mais do que dobrar suas projeções originais – e o fez sem expor dados confidenciais do cliente a um modelo de idioma.
A Fargo ajuda os clientes com as necessidades bancárias diárias por meio de voz ou texto, manipulando solicitações como pagar contas, transferir fundos, fornecer detalhes da transação e responder a perguntas sobre a atividade da conta. O assistente provou ser uma ferramenta pegajosa para os usuários, com média de várias interações por sessão.
O sistema funciona através de um pipeline de privacidade. Um cliente interage através do aplicativo, onde a fala é transcrita localmente com um modelo de fala para texto. Esse texto é então lavado e tokenizado pelos sistemas internos da Wells Fargo, incluindo um pequeno modelo de idioma (SLM) para detecção de informações de identificação pessoal (PII). Somente então uma chamada é feita para o modelo Flash 2.0 do Google para extrair a intenção e as entidades relevantes do usuário. Nenhum dado sensível atinge o modelo.
“A camada de orquestração fala com o modelo”, disse o CIO do Wells Fargo, Chintan Mehta, em entrevista ao VentureBeat. “Somos os filtros na frente e atrás.”
A única coisa que o modelo, ele explicou, é determinar a intenção e a entidade com base na frase que um usuário envia, como identificar que uma solicitação envolve uma conta poupança. “Todos os cálculos e detokenização, tudo está do nosso lado”, disse Mehta. “Nossas APIs … nenhum deles passa pelo LLM. Todos eles estão apenas sentados ortogonais.”
As estatísticas internas de Wells Fargo mostram uma rampa dramática: de 21,3 milhões de interações em 2023 para mais de 245 milhões em 2024, com mais de 336 milhões de interações cumulativas desde o lançamento. A adoção do idioma espanhol também aumentou, representando mais de 80% do uso desde o lançamento de setembro de 2023.
Essa arquitetura reflete uma mudança estratégica mais ampla. Mehta disse que a abordagem do banco está fundamentada na construção de “sistemas compostos”, onde as camadas de orquestração determinam qual modelo usar com base na tarefa. O Gêmeos Flash 2.0 pode Fargo, mas modelos menores como o LLAMA são usados em outros lugares internamente, e os modelos Openai podem ser tocados conforme necessário.
“Somos poli-modelo e poli-nuvem”, disse ele, observando que, embora o banco se incline fortemente na nuvem do Google hoje, ele também usa o Azure da Microsoft.
Mehta diz que o agnosticismo do modelo é essencial agora que o delta de desempenho entre os principais modelos é pequeno. Ele acrescentou que alguns modelos ainda se destacam em áreas específicas – o Sonnet 3.7 e o O3 Mini High para codificação, o OpenAI da Open, para pesquisas profundas, e assim por diante – mas, em sua opinião, a questão mais importante é como elas são orquestradas em oleodutos.
O tamanho da janela de contexto continua sendo uma área em que ele vê separação significativa. Mehta elogiou a capacidade de 1M-TOKEN da Gemini 2.5 Pro como uma vantagem clara para tarefas como a geração aumentada de recuperação (RAG), onde os dados não estruturados pré-processamento podem adicionar atraso. “Gêmeos o matou absolutamente quando se trata disso”, disse ele. Para muitos casos de uso, ele disse, a sobrecarga de pré -processamento de dados antes de implantar um modelo geralmente supera o benefício.
O design de Fargo mostra como os modelos de contexto podem permitir automação rápida, compatível e de alto volume-mesmo sem intervenção humana. E isso é um contraste nítido para os concorrentes. No Citi, por exemplo, o chefe de análise Promiti Dutta disse no ano passado que os riscos de grandes modelos de idiomas externos (LLMS) ainda eram muito altos. Em uma palestra hospedada pela VentureBeat, ela descreveu um sistema em que os agentes de assistência não falam diretamente com os clientes, devido a preocupações com alucinações e sensibilidade aos dados.
Wells Fargo resolve essas preocupações por meio de seu design de orquestração. Em vez de confiar em um humano no loop, ele usa salvaguardas em camadas e lógica interna para manter o LLMS fora de qualquer caminho sensível a dados.
Movimentos agênticos e design multi-agente
O Wells Fargo também está se movendo em direção a sistemas mais autônomos. Mehta descreveu um projeto recente para recusar 15 anos de documentos de empréstimos arquivados. O banco usou uma rede de agentes de interação, alguns dos quais são construídos em estruturas de código aberto como o Langgraph. Cada agente teve um papel específico no processo, que incluía a recuperação de documentos do arquivo, extraindo seu conteúdo, combinando os dados aos sistemas de registro e continuando o pipeline para executar cálculos – todas as tarefas que tradicionalmente exigem analistas humanos. Um humano analisa a produção final, mas a maior parte do trabalho foi executada autonomamente.
O banco também está avaliando modelos de raciocínio para uso interno, onde Mehta disse que ainda existe diferenciação. Enquanto a maioria dos modelos agora lida bem com as tarefas diárias, o raciocínio continua sendo um caso de borda em que alguns modelos claramente o fazem melhor que outros, e o fazem de maneiras diferentes.
Por que a latência (e preços) é importante
Na Wayfair, a CTO Fiona Tan disse que Gemini 2.5 Pro mostrou uma promessa forte, especialmente na área de velocidade. “Em alguns casos, o Gemini 2.5 voltou mais rápido que Claude ou Openai”, disse ela, referenciando experimentos recentes por sua equipe.
Tan disse que a menor latência abre a porta para os aplicativos de clientes em tempo real. Atualmente, a Wayfair usa o LLMS para aplicativos principalmente voltados para internos-incluindo o planejamento de merchandising e capital-mas a inferência mais rápida pode permitir que estendam os LLMs a produtos voltados para o cliente, como sua ferramenta de perguntas e respostas nas páginas de detalhes do produto.
Tan também observou melhorias no desempenho da codificação de Gêmeos. “Parece bastante comparável agora ao Claude 3.7”, disse ela. A equipe começou a avaliar o modelo por meio de produtos como cursor e assistência ao código, onde os desenvolvedores têm a flexibilidade de escolher.
Desde então, o Google lançou preços agressivos para Gemini 2.5 Pro: US $ 1,24 por milhão de tokens de entrada e tokens de produção de US $ 10 por milhão. Tan disse que os preços, além da flexibilidade do SKU para tarefas de raciocínio, fazem de Gemini uma opção forte daqui para frente.
O sinal mais amplo para o Google Cloud a seguir
As histórias de Wells Fargo e Wayfair chegam a um momento oportuno para o Google, que está hospedando sua próxima conferência anual do Google Cloud nesta semana em Las Vegas. Embora o OpenAI e o Antrópico tenham dominado o discurso da IA nos últimos meses, as implantações corporativas podem voltar silenciosamente para o favor do Google.
Na conferência, espera -se que o Google destace uma onda de iniciativas de IA agêntica, incluindo novos recursos e ferramentas para tornar os agentes autônomos mais úteis em fluxos de trabalho corporativos. Já no próximo evento da nuvem do ano passado, os agentes previstos do CEO Thomas Kurian serão projetados para ajudar os usuários a “alcançar objetivos específicos” e “se conectarem com outros agentes” para concluir tarefas – temas que ecoam muitos dos princípios de orquestração e autonomia que Mehta descreveram.
O Mehta do Wells Fargo enfatizou que o gargalo real para a adoção da IA não será o desempenho do modelo ou a disponibilidade da GPU. “Eu acho que isso é poderoso. Não tenho dúvidas sobre isso”, disse ele, sobre a promessa da IA generativa de retornar o valor dos aplicativos corporativos. Mas ele alertou que o ciclo do hype pode estar sendo executado à frente do valor prático. “Temos que ser muito atenciosos em não se envolver com objetos brilhantes.”
Sua maior preocupação? Poder. “A restrição não será o chips”, disse Mehta. “Será geração e distribuição de energia. Esse é o verdadeiro gargalo”.
Insights diários sobre casos de uso de negócios com VB diariamente
Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins de VB aqui.
Ocorreu um erro.
Fonte ==> Cyberseo