O novo método de treinamento de IA do Google ajuda pequenos modelos a lidar com raciocínios complexos

Edição - Istoé TECH

Pesquisadores do Google Cloud e da UCLA propuseram uma nova estrutura de aprendizagem por reforço que melhora significativamente a capacidade dos modelos de linguagem de aprender tarefas de raciocínio em várias etapas muito desafiadoras. Aprendizagem por Reforço Supervisionado (SRL) reformula a resolução de problemas como uma sequência de “ações” lógicas, fornecendo sinais ricos de aprendizagem durante o processo de treinamento.

Esta abordagem permite que modelos menores aprendam problemas complexos que antes estavam fora do alcance de outras técnicas de treinamento comuns. Experimentos mostram que o SRL não apenas se destaca em benchmarks de raciocínio matemático, mas também generaliza de forma eficaz para tarefas de engenharia de software de agente.

SRL é uma estrutura de treinamento versátil que pode elevar modelos menores e mais baratos a habilidades de raciocínio mais altas.

Os limites do atual treinamento de raciocínio LLM

Avanços recentes no treinamento de grandes modelos de linguagem (LLMs) para raciocínio foram em grande parte impulsionados pela aprendizagem por reforço com recompensas verificáveis (RLVR), um método em que um modelo é recompensado com base na correção de sua resposta final. Ao tentar resolver problemas repetidamente e obter feedback sobre o resultado final, o modelo aprende gradualmente estratégias eficazes de resolução de problemas.

No entanto, o sucesso desta abordagem baseada em resultados depende da capacidade do modelo de descobrir uma solução correta dentro de um número limitado de tentativas, ou "lançamentos." Como cada implementação é computacionalmente cara, os modelos não podem tentar indefinidamente. Este método atinge um obstáculo quando os problemas são tão difíceis que o modelo raramente, ou nunca, encontra a resposta certa dentro do seu orçamento.

Isso cria um gargalo crítico de aprendizagem. Em muitos problemas de raciocínio em várias etapas, um modelo pode resolver várias etapas corretamente, mas ser prejudicado por um único erro, levando a uma resposta incorreta. Com o RLVR, todo esse esforço recebe uma recompensa negativa e o modelo não aprende nada com seu trabalho parcialmente correto. É uma abordagem do tipo tudo ou nada que não fornece feedback granular e oferece recompensas escassas.

Um método alternativo é o ajuste fino supervisionado (SFT), onde o modelo aprende com exemplos contendo todo o processo de raciocínio apresentado por especialistas. Embora o SFT possa incutir habilidades de raciocínio, muitas vezes leva ao overfitting (o modelo simplesmente aprende a imitar as trajetórias nos dados de treinamento em vez de aprender a generalizar para problemas além dos exemplos que viu). Esta questão é agravada pelo facto de dados de formação de alta qualidade criados por seres humanos serem escassos e dispendiosos de produzir.

Como observa o artigo, essas limitações deixam "uma lacuna crítica para treinar pequenos modelos de código aberto para aprender problemas difíceis com eficácia."

Como funciona a aprendizagem por reforço supervisionado

SRL introduz uma estrutura que reformula a resolução de problemas como um "processo sequencial de tomada de decisão," encontrar um equilíbrio entre RL pura baseada em resultados e aprendizagem pura por imitação. Em vez de otimizar apenas para a resposta final ou forçar o modelo a imitar todo o processo de pensamento de um especialista, o SRL ensina o modelo a reproduzir uma sequência de ações-chave que formam a espinha dorsal do raciocínio do especialista. Isso permite que o modelo aprenda a realizar ações semelhantes às de um especialista, ao mesmo tempo que desenvolve seu próprio estilo de raciocínio interno.

Na estrutura SRL, as demonstrações de especialistas são divididas em uma série de ações intermediárias e concretas, cada uma representando um passo significativo. Para um problema matemático, uma ação pode ser uma manipulação algébrica. Para um agente de engenharia de software, poderia ser um comando executado em um repositório de código. Para gerar dados de treinamento, o SRL usa um poderoso modelo de professor para criar trajetórias de solução, que são então usadas para treinar um modelo menor.

De acordo com I-Hung Hsu, cientista pesquisador do Google e coautor do artigo, essa abordagem intermediária é fundamental para sua eficácia em cenários do mundo real. "SRL fica no meio: captura a flexibilidade estruturada da resolução de problemas do mundo real, onde existem múltiplas estratégias válidas, mas também noções claras de como é o “bom raciocínio” em cada etapa," Hsu disse ao VentureBeat. "Isso torna o SRL adequado para domínios como automação da ciência de dados ou provavelmente otimização da cadeia de suprimentos – tarefas que recompensam um raciocínio intermediário sólido em vez de meras respostas finais."

Durante o treinamento, o modelo primeiro gera um "monólogo interior" (seu processo de raciocínio interno, incluído nas tags ) antes de se comprometer com uma ação. A cada passo, o SRL oferece uma recompensa baseada na semelhança entre a ação prevista do modelo e a ação do especialista. Esse sistema de recompensa passo a passo fornece feedback denso e refinado, permitindo que o modelo aprenda e melhore mesmo que sua solução geral não seja perfeita. Isso resolve o problema de recompensa escassa que o RLVR enfrenta.

SRL em ação

Os experimentos dos pesquisadores mostram que o SRL supera significativamente as linhas de base fortes tanto no raciocínio matemático desafiador quanto nos benchmarks de engenharia de software de agente. Eles também observaram que a SRL incentiva padrões de raciocínio mais flexíveis e sofisticados em modelos, como planejamento intercalado e autoverificação, que melhoram a qualidade da solução sem apenas tornar os resultados mais longos.

Para os líderes empresariais, os ganhos de desempenho só são valiosos se não acarretarem custos excessivos. Hsu esclarece que os modelos treinados em SRL são mais eficientes em seu raciocínio. "Os ganhos vêm de uma melhor qualidade e estrutura de raciocínio, não da verbosidade," ele disse. "Em termos de eficiência, os modelos treinados em SRL estão aproximadamente no mesmo nível do modelo básico no uso de tokens… embora o SRL não seja projetado para reduzir o custo de inferência, ele alcança um desempenho de raciocínio mais forte sem aumentá-lo."

Para os testes de matemática, a equipe ajustou Qwen2.5-7B-Instrução em um conjunto de dados de 1.000 questões difíceis de matemática. Eles compararam seu desempenho com modelos treinados com SFT e RLVR (usando o algoritmo GRPO comum em modelos como DeepSeek-R1) em quatro benchmarks matemáticos em nível de competição. O modelo treinado por SRL alcançou um aumento substancial de desempenho médio de 3,0% em relação a outros métodos.

A equipe estendeu o SRL à engenharia de software de agente, um domínio crítico para a automação empresarial. Eles treinaram um modelo especializado em codificação, Qwen2.5-Coder-7B-Instruçãoem 5.000 trajetórias especializadas de agentes interagindo com um ambiente de codificação. O modelo treinado por SRL foi comparado com o modelo base original e SWE-Gym-7B, uma linha de base forte ajustada com SFT. A SRL alcançou uma taxa de resolução de tarefas de 14,8%, representando uma melhoria relativa de 74% em relação ao modelo baseado em SFT. Isso mostra a capacidade da SRL de treinar agentes de IA mais competentes para tarefas de programação complexas do mundo real.

Um novo padrão para IA de alto risco?

Os resultados mais fortes do artigo vieram da combinação de métodos: primeiro, usando SRL para ensinar raciocínio fundamental, depois usando RLVR para refinar essa habilidade. Nas suas experiências, quando os investigadores utilizaram o SRL como pré-formação e aplicaram o RLVR na pós-formação, observaram um aumento médio de 3,7%, demonstrando uma poderosa estratégia de aprendizagem curricular.

Isto levanta a questão de saber se isto poderia tornar-se um novo modelo para a construção de IA especializada.

"Vemos a SRL como uma base sólida," Hsu disse. "De certa forma, o SRL fornece um currículo – modelos de ensino para pensar e agir passo a passo – antes de refinarmos esses comportamentos com aprendizagem por reforço baseada em resultados. Esta abordagem SRL-first não apenas estabiliza o estágio posterior de RL, mas também torna o raciocínio mais interpretável e generalizável, o que é crítico para aplicações de alto risco."

Olhando para o futuro, Hsu reconhece que o dimensionamento deste pipeline ainda enfrenta desafios, especialmente o alto custo e a complexidade do RLVR ponta a ponta para tarefas de agência. No entanto, ele está otimista quanto ao caminho a seguir. "Embora as trajetórias de especialistas de alta qualidade continuem a ser importantes," ele concluiu, "acreditamos que o próximo grande salto virá da automatização de sua geração e filtragem – aproveitando modelos de professores fortes ou até mesmo modelos de alunos com autoaperfeiçoamento para inicializar novos dados."

Fonte ==> Cyberseo