A avaliação do agente de IA substitui a rotulagem de dados como o caminho crítico para a implantação da produção

Edição - Istoé TECH

À medida que os LLMs continuam a melhorar, tem havido alguma discussão na indústria sobre a necessidade contínua de ferramentas autónomas de rotulagem de dados, uma vez que os LLMs são cada vez mais capazes de trabalhar com todos os tipos de dados. sinal humano, o principal fornecedor comercial por trás do programa de código aberto Label Studio, tem uma visão diferente. Em vez de ver menos procura por rotulagem de dados, a empresa está a ver mais.

No início deste mês, a HumanSignal adquiriu a Erud AI e lançou seu Frontier Data Labs físico para nova coleta de dados. Mas criar dados é apenas metade do desafio. Hoje, a empresa está enfrentando o que vem a seguir: provar que os sistemas de IA treinados com base nesses dados realmente funcionam. Os novos recursos de avaliação de agentes multimodais permitem que as empresas validem agentes complexos de IA gerando aplicativos, imagens, código e vídeo.

"Se você se concentrar nos segmentos empresariais, todas as soluções de IA que eles estão construindo ainda precisam ser avaliadas, o que é apenas outra palavra para rotulagem de dados por humanos e ainda mais por especialistas," O cofundador e CEO da HumanSignal, Michael Malyuk, disse ao VentureBeat em uma entrevista exclusiva.

A interseção entre rotulagem de dados e avaliação de IA agente

Ter os dados certos é ótimo, mas esse não é o objetivo final de uma empresa. O rumo da rotulagem de dados moderna é a avaliação.

É uma mudança fundamental naquilo que as empresas precisam de validar: não se o seu modelo classificou corretamente uma imagem, mas se o seu agente de IA tomou boas decisões numa tarefa complexa e de vários passos que envolve raciocínio, utilização de ferramentas e geração de código.

Se a avaliação é apenas rotulagem de dados para resultados de IA, então a mudança de modelos para agentes representa uma mudança radical no que precisa ser rotulado. Onde a rotulagem tradicional de dados pode envolver a marcação de imagens ou a categorização de texto, a avaliação do agente requer o julgamento de cadeias de raciocínio em várias etapas, decisões de seleção de ferramentas e resultados multimodais – tudo dentro de uma única interação.

"Há uma necessidade muito forte não apenas de humanos no circuito, mas de especialistas no circuito," Malyuk disse. Ele apontou aplicações de alto risco, como assistência médica e aconselhamento jurídico, como exemplos em que o custo dos erros permanece proibitivamente alto.

A conexão entre rotulagem de dados e avaliação de IA é mais profunda do que a semântica. Ambas as atividades requerem as mesmas capacidades fundamentais:

Interfaces estruturadas para julgamento humano: Quer os revisores estejam rotulando imagens para dados de treinamento ou avaliando se um agente orquestrou corretamente diversas ferramentas, eles precisam de interfaces criadas especificamente para capturar suas avaliações de forma sistemática.
Consenso de vários revisores: Conjuntos de dados de treinamento de alta qualidade exigem vários rotuladores que reconciliem divergências. Uma avaliação de alta qualidade exige o mesmo: vários especialistas avaliando os resultados e resolvendo diferenças de julgamento.
Experiência de domínio em escala: O treinamento de sistemas modernos de IA requer especialistas no assunto, e não apenas funcionários clicando em botões. Avaliar os resultados da IA de produção requer a mesma profundidade de conhecimento.
Loops de feedback em sistemas de IA: Dados de treinamento rotulados alimentam o desenvolvimento do modelo. Os dados de avaliação alimentam a melhoria contínua, o ajuste fino e o benchmarking.

Avaliando o rastreamento completo do agente

O desafio da avaliação dos agentes não é apenas o volume de dados, é a complexidade do que precisa ser avaliado. Os agentes não produzem saídas de texto simples; eles geram cadeias de raciocínio, fazem seleções de ferramentas e produzem artefatos em múltiplas modalidades.

Os novos recursos do Label Studio Enterprise atendem aos requisitos de validação do agente:

Inspeção de rastreamento multimodal: A plataforma fornece interfaces unificadas para revisar rastreamentos completos de execução do agente – etapas de raciocínio, chamadas de ferramentas e resultados entre modalidades. Isso aborda um problema comum em que as equipes devem analisar fluxos de log separados.
Avaliação interativa multivoltas: Os avaliadores avaliam os fluxos de conversação onde os agentes mantêm o estado em vários turnos, validando o rastreamento do contexto e a interpretação da intenção ao longo da sequência de interação.
Arena do Agente: Estrutura de avaliação comparativa para testar diferentes configurações de agentes (modelos básicos, modelos de prompt, implementações de guardrail) sob condições idênticas.
Rubricas de avaliação flexíveis: As equipes definem critérios de avaliação específicos do domínio de forma programática, em vez de usar métricas predefinidas, apoiando requisitos como precisão de compreensão, adequação de resposta ou qualidade de saída para casos de uso específicos

A avaliação de agentes é o novo campo de batalha para fornecedores de rotulagem de dados

A HumanSignal não está sozinha ao reconhecer que a avaliação de agentes representa a próxima fase do mercado de rotulagem de dados. Os concorrentes estão a fazer mudanças semelhantes à medida que a indústria responde às mudanças tecnológicas e às perturbações do mercado.

Caixa de etiquetas lançou seu Estúdio de Avaliação em agosto de 2025, focado em avaliações baseadas em rubricas. Assim como a HumanSignal, a empresa está expandindo além da rotulagem de dados tradicional para a validação de IA de produção.

O cenário competitivo geral para rotulagem de dados mudou drasticamente em junho, quando a Meta investiu US$ 14,3 bilhões em uma participação de 49% na Scale AI, a anterior líder do mercado. O acordo desencadeou um êxodo de alguns dos maiores clientes da Scale. A HumanSignal capitalizou a interrupção, com Malyuk alegando que sua empresa conseguiu vencer vários acordos competitivos no último trimestre. Malyuk cita a maturidade da plataforma, a flexibilidade de configuração e o suporte ao cliente como diferenciais, embora os concorrentes façam afirmações semelhantes.

O que isso significa para os construtores de IA

Para as empresas que constroem sistemas de IA de produção, a convergência da rotulagem de dados e da infraestrutura de avaliação tem várias implicações estratégicas:

Comece com a verdade básica. O investimento na criação de conjuntos de dados rotulados de alta qualidade com vários revisores especializados que resolvem divergências rende dividendos ao longo de todo o ciclo de vida de desenvolvimento de IA — desde o treinamento inicial até a melhoria contínua da produção.

A observabilidade revela-se necessária, mas insuficiente. Embora o monitoramento do que os sistemas de IA fazem continue importante, as ferramentas de observabilidade medem a atividade, não a qualidade. As empresas necessitam de uma infraestrutura de avaliação dedicada para avaliar os resultados e impulsionar melhorias. Estes são problemas distintos que requerem capacidades diferentes.

A infraestrutura de dados de treinamento também funciona como infraestrutura de avaliação. As organizações que investiram em plataformas de rotulagem de dados para desenvolvimento de modelos podem estender essa mesma infraestrutura para avaliação de produção. Esses não são problemas separados que exigem ferramentas separadas — são o mesmo fluxo de trabalho fundamental aplicado em diferentes estágios do ciclo de vida.

Para as empresas que implementam IA em escala, o gargalo passou da construção de modelos para a validação deles. As organizações que reconhecem essa mudança antecipadamente ganham vantagens no transporte de sistemas de IA de produção.

A questão crítica para as empresas evoluiu: não se os sistemas de IA são suficientemente sofisticados, mas se as organizações podem provar sistematicamente que cumprem os requisitos de qualidade de domínios específicos de alto risco.

Fonte ==> Cyberseo