8 bilhões de tokens por dia forçaram a AT&T a repensar a orquestração de IA – e reduzir custos em 90%

Edição - Istoé TECH

Quando o uso médio diário de tokens é de 8 bilhões por dia, você tem um enorme problema de escala. Esse foi o caso da AT&T, e o diretor de dados Andy Markus e sua equipe reconheceram que simplesmente não era viável (ou econômico) forçar tudo por meio de grandes modelos de raciocínio. Portanto, ao construir um assistente pessoal interno do Ask AT&T, eles reconstruíram a camada de orquestração. O resultado: uma pilha multiagente construída em LangChain, onde “superagentes” de grandes modelos de linguagem direcionam agentes “trabalhadores” menores e subjacentes, realizando um trabalho mais conciso e orientado a um propósito. Essa camada de orquestração flexível melhorou drasticamente a latência, a velocidade e os tempos de resposta, disse Markus ao VentureBeat. Mais notavelmente, sua equipe obteve economia de custos de até 90%. “Acredito que o futuro da IA agente consiste em muitos, muitos, muitos modelos de linguagem pequena (SLMs)”, disse ele. “Constatamos que modelos de linguagem pequena são tão precisos, se não tão precisos, quanto um modelo de linguagem grande em uma determinada área de domínio.”

Mais recentemente, Markus e sua equipe usaram essa pilha reprojetada junto com o Microsoft Azure para criar e implantar o Ask AT&T Workflows, um construtor gráfico de agentes de arrastar e soltar para os funcionários automatizarem tarefas.

Os agentes utilizam um conjunto de ferramentas proprietárias da AT&T que lidam com processamento de documentos, conversão de linguagem natural para SQL e análise de imagens. “À medida que o fluxo de trabalho é executado, são os dados da AT&T que realmente orientam as decisões”, disse Markus. Em vez de fazer perguntas gerais, “estamos fazendo perguntas sobre nossos dados e aplicamos nossos dados para garantir que eles se concentrem em nossas informações enquanto tomam decisões”. Ainda assim, um humano sempre supervisiona a “reação em cadeia” dos agentes. Todas as ações do agente são registradas, os dados são isolados durante todo o processo e o acesso baseado em função é aplicado quando os agentes transferem cargas de trabalho entre si. “As coisas acontecem de forma autônoma, mas o ser humano responsável ainda fornece uma verificação e equilíbrio de todo o processo”, disse Markus.

Não sobrecarregar, usando modelos “intercambiáveis e selecionáveis”

A AT&T não aceita "construa tudo do zero" mentalidade, observou Markus; é mais depender de modelos que sejam “intercambiáveis e selecionáveis” e que “nunca reconstruam uma mercadoria”. À medida que a funcionalidade amadurece em todo o setor, eles irão descontinuar ferramentas desenvolvidas internamente em vez de opções prontas para uso, explicou ele. “Porque neste espaço as coisas mudam todas as semanas, se tivermos sorte, às vezes várias vezes por semana”, disse ele. “Precisamos ser capazes de pilotar, conectar e desconectar diferentes componentes.” Eles fazem avaliações “realmente rigorosas” das opções disponíveis, bem como das suas próprias; por exemplo, seu Ask Data with Relational Knowledge Graph liderou o ranking de precisão de texto para SQL do Spider 2.0, e outras ferramentas obtiveram pontuação elevada no benchmark BERT SQL. No caso de ferramentas de agente desenvolvidas internamente, sua equipe usa LangChain como estrutura central, ajusta modelos com geração aumentada de recuperação padrão (RAG) e outros algoritmos internos, e faz parceria estreita com a Microsoft, usando a funcionalidade de pesquisa da gigante da tecnologia para seu armazenamento de vetores. Em última análise, porém, é importante não apenas fundir IA de agente ou outras ferramentas avançadas em tudo só por fazer, aconselhou Markus. “Às vezes complicamos demais as coisas”, disse ele. “Às vezes, vejo uma solução projetada demais.” Em vez disso, os construtores deveriam se perguntar se uma determinada ferramenta realmente precisa ser agente. Isso poderia incluir questões como: Que nível de precisão poderia ser alcançado se fosse uma solução generativa mais simples e de giro único? Como eles poderiam dividi-lo em pedaços menores, onde cada pedaço pudesse ser entregue “com muito mais precisão”?, como disse Markus. Precisão, custo e capacidade de resposta da ferramenta devem ser princípios fundamentais. “Mesmo que as soluções tenham ficado mais complicadas, esses três princípios básicos ainda nos dão muita orientação”, disse ele.

Como 100.000 funcionários estão realmente usando isso

Ask AT&T Workflows foi implementado para mais de 100.000 funcionários. Mais da metade afirma que o usa todos os dias, e os adotantes ativos relatam ganhos de produtividade de até 90%, disse Markus. “Estamos analisando se eles estão usando o sistema repetidamente? Porque a aderência é um bom indicador de sucesso”, disse ele. O agente construtor oferece “duas jornadas” para os funcionários. Um deles é o pró-código, onde os usuários podem programar Python nos bastidores, ditando regras sobre como os agentes devem trabalhar. O outro é sem código, apresentando uma interface visual de arrastar e soltar para uma “experiência de usuário bastante leve”, disse Markus. Curiosamente, mesmo usuários experientes estão optando pela última opção. Em um hackathon recente voltado para um público técnico, os participantes puderam escolher entre ambos, e mais da metade escolheu low code. “Isso foi uma surpresa para nós, porque todas essas pessoas eram muito competentes no aspecto da programação”, disse Markus. Os funcionários estão usando agentes em diversas funções; por exemplo, um engenheiro de rede pode criar uma série deles para abordar alertas e reconectar clientes quando eles perderem a conectividade. Nesse cenário, um agente pode correlacionar a telemetria para identificar o problema de rede e sua localização, extrair logs de alterações e verificar problemas conhecidos. Então, ele pode abrir um ticket de problema. Outro agente poderia então encontrar maneiras de resolver o problema e até mesmo escrever um novo código para corrigi-lo. Uma vez resolvido o problema, um terceiro agente pode então redigir um resumo com medidas preventivas para o futuro. “O engenheiro (humano) cuidaria de tudo isso, garantindo que os agentes estivessem funcionando conforme o esperado e tomando as medidas corretas”, disse Markus.

A codificação alimentada por IA é o futuro

Essa mesma disciplina de engenharia – dividindo o trabalho em partes menores e específicas – está agora remodelando a forma como a AT&T escreve o próprio código, por meio do que Markus chama de "Codificação alimentada por IA."

Ele comparou o processo ao RAG; os desenvolvedores usam métodos de codificação ágeis em um ambiente de desenvolvimento integrado (IDE), juntamente com arquétipos de construção “específicos de função” que determinam como o código deve interagir. A saída não é um código solto; o código está “muito próximo do grau de produção” e pode atingir essa qualidade de uma só vez. “Todos nós trabalhamos com vibe coding, onde temos um tipo de editor de código agente”, observou Markus. Mas a codificação alimentada por IA “elimina muitas das iterações que você pode ver na codificação vibe”. Ele vê essa técnica de codificação como uma “redefinição tangível” do ciclo de desenvolvimento de software, encurtando, em última análise, os prazos de desenvolvimento e aumentando a produção de código de nível de produção. Equipes não técnicas também podem entrar em ação, usando instruções em linguagem simples para construir protótipos de software. Sua equipe, por exemplo, usou a técnica para construir um produto de dados com curadoria interna em 20 minutos; sem IA, a construção levaria seis semanas. “Desenvolvemos software com ele, modificamos software com ele, fazemos ciência de dados com ele, fazemos análise de dados com ele, fazemos engenharia de dados com ele”, disse Markus. “Portanto, é uma virada de jogo.”

Fonte ==> Cyberseo