Modelos de linguagem de autoaperfeiçoamento estão se tornando realidade com a técnica SEAL atualizada do MIT

Modelos de linguagem de autoaperfeiçoamento estão se tornando realidade com a técnica SEAL atualizada do MIT

Pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) estão ganhando atenção renovada para desenvolver e abrir o código-fonte de uma técnica que permite que grandes modelos de linguagem (LLMs) – como aqueles que sustentam o ChatGPT e a maioria dos chatbots de IA modernos – se aprimorem, gerando dados sintéticos para ajuste fino.

A técnica, conhecida como SEAL (Self-Adapting LLMs), foi descrita pela primeira vez em um artigo publicado em junho e coberto pela VentureBeat na época.

Uma versão significativamente expandida e atualizada do artigo foi lançada no mês passado, bem como o código-fonte aberto postado no Github (sob uma licença do MIT, permitindo o uso comercial e empresarial), e está causando novas ondas entre os usuários avançados de IA na rede social X esta semana.

O SEAL permite que os LLMs gerem e apliquem de forma autônoma suas próprias estratégias de ajuste fino. Ao contrário dos modelos convencionais que dependem de dados externos fixos e pipelines de otimização criados por humanos, o SEAL permite que os modelos evoluam produzindo seus próprios dados de treinamento sintéticos e diretivas de otimização correspondentes.

O desenvolvimento vem de uma equipe afiliada ao Improvável AI Lab do MIT, incluindo Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim e Pulkit Agrawal. Sua pesquisa foi recentemente apresentada na 39ª Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS 2025).

Antecedentes: De “Além da IA ​​Estática” a Sistemas Autoadaptativos

No início deste ano, a VentureBeat relatou pela primeira vez o SEAL como uma estrutura em estágio inicial que permitiu que modelos de linguagem gerassem e treinassem em seus próprios dados sintéticos – uma solução potencial para a estagnação de modelos pré-treinados, uma vez implantados.

Nessa fase, o SEAL foi concebido como uma prova de conceito que poderia permitir que os agentes empresariais de IA aprendessem continuamente em ambientes dinâmicos sem necessidade de reciclagem manual.

Desde então, a pesquisa avançou consideravelmente. A nova versão expande a estrutura anterior, demonstrando que a capacidade de autoadaptação do SEAL se adapta ao tamanho do modelo, integra o aprendizado por reforço de forma mais eficaz para reduzir o esquecimento catastrófico e formaliza a estrutura de loop duplo do SEAL (ajuste fino supervisionado interno e otimização de reforço externo) para reprodutibilidade.

O documento atualizado também apresenta avaliações em diferentes formatos de solicitação, maior estabilidade durante os ciclos de aprendizagem e uma discussão sobre desafios práticos de implantação no momento da inferência.

Lidando com as limitações dos modelos estáticos

Embora os LLMs tenham demonstrado capacidades notáveis ​​na geração e compreensão de texto, a sua adaptação a novas tarefas ou conhecimentos é muitas vezes manual, frágil ou dependente do contexto.

O SEAL desafia esse status quo ao equipar os modelos com a capacidade de gerar o que os autores chamam de “auto-edições” – resultados em linguagem natural que especificam como o modelo deve atualizar seus pesos.

Essas auto-edições podem assumir a forma de informações reformuladas, implicações lógicas ou configurações de ferramentas para aumento e treinamento. Uma vez gerado, o modelo se ajusta com base nessas edições. O processo é guiado pela aprendizagem por reforço, onde o sinal de recompensa vem do melhor desempenho em uma tarefa posterior.

O design imita como os alunos humanos podem reformular ou reorganizar os materiais de estudo para internalizar melhor as informações. Esta reestruturação do conhecimento antes da assimilação serve como uma vantagem fundamental sobre os modelos que consomem passivamente novos dados “tal como estão”.

Desempenho em todas as tarefas

O SEAL foi testado em dois domínios principais: incorporação de conhecimento e aprendizagem rápida.

No cenário de incorporação de conhecimento, os pesquisadores avaliaram até que ponto um modelo poderia internalizar novo conteúdo factual de passagens semelhantes às do conjunto de dados SQuAD, um conjunto de dados de referência de compreensão de leitura introduzido pela Universidade de Stanford em 2016, consistindo em mais de 100.000 pares de perguntas e respostas de crowdsourcing baseados em artigos da Wikipédia (Rajpurkar et al., 2016).

Em vez de fazer o ajuste fino diretamente no texto da passagem, o modelo gerou implicações sintéticas da passagem e depois ajustá-los.

Após duas rodadas de aprendizado por reforço, o modelo melhorou a precisão das respostas às perguntas de 33,5% para 47,0% em uma versão sem contexto do SQuAD – superando os resultados obtidos usando dados sintéticos gerados pelo GPT-4.1.

No cenário de aprendizagem de poucas tentativas, o SEAL foi avaliado usando um subconjunto do benchmark ARC, onde as tarefas exigem raciocínio a partir de apenas alguns exemplos. Aqui, o SEAL gerou autoedições especificando aumentos de dados e hiperparâmetros.

Após a aprendizagem por reforço, a taxa de sucesso na resolução correta de tarefas pendentes saltou para 72,5%, acima dos 20% usando auto-edições geradas sem aprendizagem por reforço. Os modelos que dependiam apenas da aprendizagem contextual sem qualquer adaptação pontuaram 0%.

Quadro Técnico

O SEAL opera usando uma estrutura de dois loops: um loop interno realiza o ajuste fino supervisionado com base na autoedição, enquanto um loop externo usa aprendizado por reforço para refinar a política que gera essas autoedições.

O algoritmo de aprendizagem por reforço utilizado é baseado em ReSTEM, que combina amostragem com clonagem de comportamento filtrado. Durante o treinamento, apenas as autoedições que levam a melhorias de desempenho são reforçadas. Essa abordagem ensina efetivamente ao modelo quais tipos de edições são mais benéficas para o aprendizado.

Para maior eficiência, o SEAL aplica ajuste fino baseado em LoRA em vez de atualizações completas de parâmetros, permitindo experimentação rápida e adaptação de baixo custo.

Pontos fortes e limitações

Os pesquisadores relatam que o SEAL pode produzir dados de treinamento de alta utilidade com supervisão mínima, superando até mesmo grandes modelos externos como o GPT-4.1 em tarefas específicas.

Eles também demonstram que o SEAL generaliza além de sua configuração original: ele continua a ter um bom desempenho ao escalar de atualizações de passagem única para cenários de pré-treinamento contínuo com vários documentos.

No entanto, a estrutura não é isenta de limitações. Um problema é o esquecimento catastrófico, em que atualizações para incorporar novas informações podem degradar o desempenho em tarefas aprendidas anteriormente.

Em resposta a esta preocupação, o coautor Jyo Pari disse ao VentureBeat por e-mail que o aprendizado por reforço (RL) parece mitigar o esquecimento de forma mais eficaz do que o ajuste fino supervisionado padrão (SFT), citando um artigo recente sobre o assunto. Ele acrescentou que combinar esse insight com o SEAL poderia levar a novas variantes onde o SEAL aprende não apenas dados de treinamento, mas também funções de recompensa.

Outro desafio é a sobrecarga computacional: avaliar cada autoedição requer ajuste fino e testes de desempenho, que podem levar de 30 a 45 segundos por edição – significativamente mais do que tarefas padrão de aprendizagem por reforço.

Como Jyo explicou, “O treinamento do SEAL não é trivial porque requer 2 loops de otimização, um RL externo e um SFT interno. No momento da inferência, a atualização dos pesos do modelo também exigirá nova infraestrutura de sistemas.” Ele enfatizou a necessidade de pesquisas futuras sobre sistemas de implantação como um caminho crítico para tornar o SEAL prático.

Além disso, o design atual do SEAL pressupõe a presença de tarefas emparelhadas e respostas de referência para cada contexto, limitando a sua aplicabilidade direta a corpora não rotulados. No entanto, Jyo esclareceu que, desde que haja uma tarefa posterior com uma recompensa computável, o SEAL pode ser treinado para se adaptar de acordo – mesmo em domínios críticos para a segurança. Em princípio, um modelo treinado pelo SEAL poderia aprender a evitar o treinamento sobre informações prejudiciais ou maliciosas se for guiado pelo sinal de recompensa apropriado.

Reações da comunidade de IA

A comunidade de pesquisa e construção de IA reagiu com uma mistura de entusiasmo e especulação ao artigo do SEAL. No X, antigo Twitter, várias contas proeminentes focadas em IA avaliaram o impacto potencial.

O usuário @VraserX, que se autodenomina educador e entusiasta de IA, chamou o SEAL de “o nascimento da IA ​​de autoaprendizagem contínua” e previu que modelos como o GPT-6 da OpenAI poderiam adotar uma arquitetura semelhante.

Nas suas palavras, o SEAL representa “o fim da era dos pesos congelados”, inaugurando sistemas que evoluem à medida que o mundo à sua volta muda.

Eles destacaram a capacidade do SEAL de formar memórias persistentes, reparar conhecimentos e aprender com dados em tempo real, comparando-os a um passo fundamental em direção a modelos que não apenas usam informações, mas também as absorvem.

Enquanto isso, @alex_prompter, cofundador de um empreendimento de marketing movido por IA, enquadrou o SEAL como um salto em direção a modelos que literalmente se reescrevem. “O MIT acaba de construir uma IA que pode reescrever seu próprio código para ficar mais inteligente”, escreveu ele. Citando os principais resultados do artigo – um aumento de 40% na recordação factual e superação do GPT-4.1 usando dados autogerados – ele descreveu as descobertas como uma confirmação de que “LLMs que se ajustam não são mais ficção científica”.

O entusiasmo reflete um apetite mais amplo no espaço da IA ​​por modelos que possam evoluir sem reciclagem constante ou supervisão humana – particularmente em domínios em rápida mudança ou casos de utilização personalizados.

Direções Futuras e Perguntas Abertas

Em resposta a perguntas sobre como dimensionar o SEAL para modelos e tarefas maiores, Jyo apontou experimentos (Apêndice B.7) que mostram que à medida que o tamanho do modelo aumenta, aumenta também sua capacidade de autoadaptação. Ele comparou isso ao fato de os alunos melhorarem suas técnicas de estudo ao longo do tempo – modelos maiores são simplesmente melhores para gerar autoedições úteis.

Quando questionado se o SEAL generaliza para novos estilos de inspiração, ele confirmou que sim, citando a Tabela 10 do artigo. No entanto, ele também reconheceu que a equipe ainda não testou a capacidade do SEAL de transferir domínios ou arquiteturas modelo inteiramente novos.

“SEAL é um trabalho inicial que mostra as possibilidades”, disse ele. “Mas requer muito mais testes.” Ele acrescentou que a generalização pode melhorar à medida que o SEAL for treinado em uma distribuição mais ampla de tarefas.

Curiosamente, a equipe descobriu que apenas algumas etapas de aprendizagem por reforço já levavam a ganhos mensuráveis ​​de desempenho. “Isso é empolgante”, observou Jyo, “porque significa que, com mais computação, poderíamos obter ainda mais melhorias”. Ele sugeriu que experimentos futuros poderiam explorar métodos de aprendizagem por reforço mais avançados além do ReSTEM, como a Otimização de Política Relativa de Grupo (GRPO).

Rumo a modelos mais adaptativos e agentes

O SEAL representa um passo em direção a modelos que podem melhorar de forma autônoma ao longo do tempo, tanto pela integração de novos conhecimentos quanto pela reconfiguração da forma como aprendem. Os autores prevêem extensões futuras onde o SEAL poderia ajudar no auto-pré-treinamento, na aprendizagem contínua e no desenvolvimento de sistemas de agentes – modelos que interagem com ambientes em evolução e se adaptam de forma incremental.

Nesses ambientes, um modelo poderia usar o SEAL para sintetizar atualizações de peso após cada interação, internalizando gradualmente comportamentos ou insights. Isto poderia reduzir a necessidade de supervisão repetida e intervenção manual, especialmente em domínios especializados ou com restrições de dados.

À medida que o texto público da web se torna saturado e a expansão dos LLMs se torna estrangulada pela disponibilidade de dados, abordagens autodirigidas como o SEAL podem desempenhar um papel crítico na expansão dos limites do que os LLMs podem alcançar.

Você pode acessar o projeto SEAL, incluindo código e documentação adicional, em: https://jyopari.github.io/posts/seal



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *