Os pesquisadores treinaram um agente de pesquisa de IA de código aberto, Harness-1, que supera o GPT-5.4 na recuperação de informações relevantes

Edição - Istoé TECH

Uma colaboração de pesquisa conjunta entre pesquisadores da Universidade de Illinois em Urbana-Champaign (UIUC), UC Berkeley, e a plataforma de banco de dados vetorial nativa de IA de código aberto Chroma revelou o Harness-1, um agente de pesquisa de código aberto de 20 bilhões de parâmetros construído sobre o modelo de código aberto gpt-oss-20B da OpenAI que redesenha fundamentalmente como a IA executa tarefas complexas de recuperação.

Harness-1 alcança um grande salto em desempenho, com pontuação média de 73% em sua capacidade de lembrar informações relevantes corretamente a partir de um conjunto de dados selecionado, superando até mesmo GPT-5.4 (70,9%) e o próximo e mais preciso agente de pesquisa de código aberto, Tongyi DeepResearch 30B, em 11,4 pontos percentuais. (Embora o GPT-5.5 também esteja disponível há mais de um mês, os pesquisadores não testaram esse modelo porque ele não estava disponível quando eles estavam construindo o seu.)

Crucialmente para os desenvolvedores, o modelo e seu ambiente estão disponíveis imediatamente sob a licença altamente permissiva Apache 2.0 e código/pesos do modelo no Hugging Face.

Harness-1 também serve como prova de eficácia de outro esforço, Tinker, o treinamento de modelo de IA distribuído e baseado na web e API de ajuste fino desenvolvida pela Thinking Machines. O Tinker foi usado especificamente para treinar e executar inferências para o Harness-1, destacando como a infraestrutura interativa está capacitando ativamente a próxima geração de modelos autônomos.

Então, como os pesquisadores fizeram isso?

Benchmarks decodificados (e por que o Harness-1 pode ajudar tremendamente as empresas)

Para realmente testar esses modelos, os pesquisadores avaliaram o Harness-1 e seus concorrentes em oito benchmarks de pesquisa altamente complexos. Em vez de fazer perguntas simples e triviais, esses testes exigiam que a IA agisse como um verdadeiro pesquisador, vasculhando fontes de dados diversas e densas.

Os benchmarks abrangeram vários domínios diferentes, incluindo pesquisas abertas na web, registros financeiros complexos da SEC, bancos de dados técnicos de patentes do USPTO e "multi-salto" tarefas de resposta a perguntas em que a IA tinha que reunir logicamente pistas dispersas de vários documentos diferentes para chegar à resposta correta.

Quando os resultados chegaram, o Harness-1 dominou a competição de código aberto em sua capacidade de encontrar e selecionar com sucesso os fatos certos. Ainda mais impressionante é que esse modelo relativamente pequeno de 20 bilhões de parâmetros enfrentou sistemas de IA proprietários enormes e caros. Na verdade, ele superou pesos pesados como GPT-5.4, Sonnet-4.6 e Kimi-K2.5 – considerados centenas de bilhões ou trilhões de parâmetros. Apenas um modelo gigante de fronteira – Opus-4.6 – conseguiu superar por pouco o desempenho médio geral.

O Harness-1 alcança seus ganhos de desempenho ao descarregar o exaustivo "escrituração contábil" de uma sessão de pesquisa fora da memória de trabalho do modelo e em um ambiente de software estruturado.

À medida que os casos de uso empresarial se tornam mais sofisticados, exigindo que os modelos analisem de forma autônoma milhares de documentos corporativos ou registros financeiros, esses sistemas frequentemente sucumbem à "amnésia de pesquisa"—esquecendo suas consultas originais, repetindo documentos rejeitados ou perdendo o controle das afirmações específicas que estão tentando verificar.

Até agora, a solução predominante para esta amnésia tem sido a força bruta. Os engenheiros normalmente forçam os modelos a reler constantemente uma transcrição sempre em expansão de suas próprias ações, apenas com acréscimos, empilhando cada pesquisa, leitura e pensamento em uma enorme janela de contexto.

Harness-1 introduz uma mudança de paradigma neste método, provando que o gargalo para a verdadeira autonomia artificial não é necessariamente o tamanho do modelo, mas a eficiência com que seu ambiente de trabalho gerencia o estado. Ele destaca mais uma vez, como também fez o Código Claude da Anthropic, que o modelo bruto é indiscutivelmente menos importante do que o arnês – ou conjunto de condições – através do qual ele funciona.

Tecnologia: cuidando da papelada no meio ambiente

Para compreender o salto técnico do Harness-1, considere uma analogia do mundo real.

Imagine contratar um assistente de pesquisa brilhante e colocá-lo em uma sala vazia, sem mesa, blocos de notas ou arquivos. Você pede que eles escrevam um relatório abrangente sobre um tópico altamente complexo, que exige que leiam dezenas de livros, mantendo cada citação, citação e pesquisa sem saída perfeitamente memorizada em sua própria cabeça. Eventualmente, não importa o quão inteligente o assistente seja, sua carga cognitiva será máxima e eles começarão a abandonar os fatos ou a perder o fio da tarefa.

É exatamente assim que os agentes de busca tradicionais operam hoje. Eles são treinados como políticas sobre transcrições crescentes, o que significa que o modelo pesquisa, lê, pesquisa novamente e anexa tudo em sua própria janela de contexto.

Como observou o pesquisador principal Patrick (Pengcheng) Jiang, da Universidade de Illinois, em X: "Em algum momento, o modelo não está mais apenas “procurando”. Também está sendo solicitado que seja um sistema de memória, um anotador, um verificador e um bibliotecário."

O Harness-1 resolve isso dando à IA uma mesa e um arquivo – o que a equipe de pesquisa chama de "arnês de externalização de estado."

Esse equipamento é um ambiente ativo e envolvente que assume a contabilidade de rotina, mantendo uma memória de trabalho recuperável que inclui um conjunto de documentos candidatos, um conjunto de evidências com curadoria marcada por importância, links de evidências compactas e registros de verificação.

Ao separar as escolhas semânticas da gestão do estado estrutural, a IA fica livre para fazer o que faz melhor.

A política ainda decide o que pesquisar, determina quais documentos manter e sabe quando parar, enquanto o ambiente simplesmente detém o estado.

Aqui está uma subseção que detalha a metodologia de treinamento e como ela difere dos modelos anteriores de busca de agentes:

Training Harness-1: Uma Masterclass em Eficiência de Dados

O pipeline de treinamento para o Harness-1 representa uma mudança fundamental na forma como a indústria de IA aborda o aprendizado agente.

Historicamente, os desenvolvedores têm tratado os agentes de pesquisa como políticas que operam sobre transcrições massivas e cada vez maiores, forçando algoritmos de aprendizagem por reforço (RL) a otimizar simultaneamente o raciocínio semântico e a memorização bruta de um estado de pesquisa.

Os criadores do Harness-1 adotaram uma abordagem radicalmente diferente: porque seu costume "aproveitar" lida com toda a contabilidade de rotina – como manutenção de links de evidências, grupos de candidatos e registros de verificação – o processo de treinamento só é necessário para ensinar ao modelo como operar essa interface estruturada.

Esta divisão de trabalho simplificou drasticamente o que o modelo subjacente de 20 mil milhões de parâmetros realmente precisava de aprender.

O processo começou com um estágio de ajuste fino supervisionado (SFT) extremamente estreito. Em vez de extrair petabytes de novos dados comportamentais, a equipe gerou apenas 899 trajetórias filtradas usando um agente de professor GPT-5.4 que foi conectado exatamente ao mesmo ambiente de equipamento que o modelo do aluno eventualmente usaria.

O objetivo desta fase do SFT não era injetar grandes quantidades de conhecimento de domínio no modelo, mas simplesmente ensinar-lhe os ritmos mecânicos de um bom pesquisador: como formatar chamadas de ferramentas, como etiquetar documentos por importância e a disciplina de verificar uma afirmação antes de promovê-la para o conjunto final de curadoria.

Após o SFT, o modelo passou por Reinforcement Learning (RL) usando um algoritmo chamado CISPO, aplicado em episódios de pesquisa completos com limite de 40 voltas.

A equipe projetou uma função de recompensa terminal altamente específica que separou explicitamente descoberta de seleção. O modelo foi recompensado não apenas por encontrar um documento relevante, mas por promovê-lo com sucesso no conjunto de respostas final, sendo penalizado se encontrasse a resposta, mas não conseguisse curá-la.

Os pesquisadores também instituíram um "diversidade de ferramentas" bônus; sem este incentivo específico, descobriram que a política desmoronaria rapidamente numa estratégia preguiçosa e com muitas pesquisas, onde enviava spam para consultas, mas contornava o trabalho mais árduo de leitura e verificação do texto.

O que torna o Harness-1 verdadeiramente inovador em comparação com trabalhos anteriores é a sua eficiência de dados sem precedentes. Todo o modelo foi treinado em cerca de 4.400 itens únicos – 899 trajetórias SFT e 3.453 consultas RL.

Em total contraste, os modelos concorrentes de código aberto exigiam conjuntos de dados muito maiores para obter resultados piores: o Context-1 utilizou mais de 17.200 itens de treinamento, enquanto o Search-R1 contou com impressionantes 221.300 itens para aprender comportamentos de pesquisa.

Ao provar que uma arquitetura cognitiva externa mais inteligente pode substituir o dimensionamento de dados de força bruta, Harness-1 sugere que o futuro da IA de agência reside na construção de ambientes melhores para os modelos funcionarem, em vez de apenas treinar modelos maiores com mais dados.

Produto: Aplicabilidade e Generalização Empresarial

Do ponto de vista do produto, o Harness-1 é entregue como um agente 20B altamente capaz integrado ao openai/gpt-oss-20b arquitetura básica.

Para pilhas de tecnologia empresarial, a aplicabilidade é enorme porque as empresas precisam de IA para executar pesquisas em várias etapas em bancos de dados proprietários, sem ter alucinações ou gerar contas de computação exorbitantes.

Harness-1 gerencia seu desempenho de nível de fronteira no que os criadores descrevem como "Custo e latência de nível 1 de contexto." Como a janela de contexto é estritamente gerenciada pelo equipamento consciente do orçamento, em vez de se expandir continuamente, as empresas podem implantar esse agente de forma autônoma, sem incorrer nos custos exponenciais de tokens normalmente associados a tarefas de IA de longo horizonte.

Ainda mais impressionante é que o Harness-1 prova que pode generalizar muito além dos seus dados de treinamento. De acordo com a equipe de pesquisa, era incrivelmente barato treinar, utilizando apenas 899 trajetórias filtradas de ajuste fino supervisionado (SFT) e apenas 3.453 consultas de aprendizagem por reforço (RL).

"Em vez de treinar o modelo para sobreviver a uma transcrição gigante apenas com anexos, nós o treinamos para usar uma interface de pesquisa estruturada: pesquisar, selecionar, revisitar, verificar e enviar," Jiang explicou.

Esta flexibilidade revela-se um ponto crítico para a indústria da IA: os programadores não precisam necessariamente de petabytes de novos dados comportamentais se construírem uma estrutura cognitiva melhor para o modelo funcionar.

Licenciamento: O poder do Apache 2.0

Um dos aspectos mais significativos do lançamento do Harness-1 é o seu licenciamento. Em linguagem simples, o Apache 2.0 é uma licença de software altamente permissiva e amigável para empresas que permite fundamentalmente a comercialização.

Diferente "copyleft" licenças (como a GPL) que podem forçar as empresas a abrir o código-fonte de seu próprio software proprietário se integrarem o código, ou "apenas para pesquisa" licenças que proíbem totalmente o uso comercial, o Apache 2.0 dá às empresas luz verde para construir, modificar e monetizar livremente a tecnologia.

Para desenvolvedores e startups, isso significa que o Harness-1 pode ser perfeitamente integrado a produtos comerciais de pesquisa empresarial, ferramentas internas de recuperação de dados ou aplicativos de IA voltados para o cliente, sem medo de represálias legais.

O único requisito importante é que os usuários incluam o aviso de direitos autorais original e declarem explicitamente quaisquer modificações significativas que fizerem no código-fonte, posicionando o Harness-1 como um alicerce altamente viável para a empresa.

Reações da comunidade: uma validação retumbante

O anúncio claramente tocou a comunidade de desenvolvedores, validando os problemas reais que os engenheiros enfrentam ao construir sistemas de agente. O tópico de anúncio de várias partes de Jiang no X rapidamente ganhou grande força, obtendo mais de 256,1 mil visualizações, 3,7 mil curtidas, 2,9 mil marcadores e quase 300 republicações em questão de dias.

Esse alto envolvimento ressalta um consenso crescente no espaço da IA de que a força bruta nas janelas de contexto é uma batalha perdida.

Quando Jiang postou no X, "Estive pensando: talvez os agentes de busca sejam ruins em busca, em parte porque os obrigamos a cuidar de toda a papelada mentalmente," a ressonância foi imediata.

Para desenvolvedores que passaram o último ano lutando com agentes de IA que esquecem com segurança suas instruções primárias no meio de uma pesquisa no banco de dados, a abordagem Harness-1 parece uma correção de curso desesperadamente necessária.

Em última análise, o sentimento da comunidade destaca uma mudança nas prioridades da indústria. Os desenvolvedores estão deixando de perguntar quão grande pode ser a janela de contexto de um modelo de IA e, em vez disso, perguntando com que eficiência o ambiente de um modelo de IA pode gerenciar esse contexto para ele. Ao descarregar a papelada, o Harness-1 está provando que sistemas menores e mais inteligentes podem superar os gigantes – desde que tenham a mesa certa para trabalhar.

Fonte ==> Cyberseo