Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora
Openai’s Novos e poderosos pesos abertos Família de Modelo de Linguagem Grande AI (LLM) O GPTs foi lançado há menos de duas semanas Sob uma licença permissiva do Apache 2.0-o primeiro lançamento do modelo de peso aberto da empresa desde o GPT-2 em 2019-, mas os desenvolvedores fora da empresa já estão remodelando.
Um dos exemplos mais impressionantes vem de Jack Morris, um estudante de doutorado em Cornell Tech, ex -residente do Google Brain e atual pesquisador da Meta, que Esta semana revelou o GPT-20B-BASE, Sua própria versão reformulada do modelo menor do GPT-20B do OpenAI, que Remove o comportamento de “raciocínio” do modelo e o devolve a uma versão “base” pré-treinada que oferece respostas mais rápidas, mais livres, mais censuradas e sem restrições.
O modelo já está disponível agora em abraçar o rosto sob um Licença permissiva do MITpermitindo que seja usado para ambos adicionais Pesquisa e aplicações comerciais.
Como o GPT-OSS-20B-BASE é diferente dos modelos GPT do OpenAI
Para entender o que Morris fez, ajuda a conhecer o A diferença entre o lançamento do OpenAI e o que os pesquisadores da IA chamam de “modelo básico”.
Ai escala atinge seus limites
Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:
- Transformando energia em uma vantagem estratégica
- Arquitetagem Inferência eficiente para ganhos reais de rendimento
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Prenda seu lugar para ficar à frente: https://bit.ly/4mwgngo
A maioria dos LLMs oferecidos pelos principais laboratórios de IA, como OpenAi, Anthropic, Google e até jogadores de código aberto como Meta, Deepseek e a equipe de Qwen da Alibaba, são “pós-treinados”.
Isso significa que eles passaram por uma fase adicional, onde é exposta a exemplos com curadoria do comportamento desejado.
Para modelos sintonizados por instruções, isso significa fornecer muitos exemplos de instruções combinadas com respostas ideais, por isso aprende a responder de maneira mais útil, educada ou segura às solicitações de idiomas naturais.
Os modelos GPT-OSS OpenAl lançados em 5 de agosto foram “otimizados para o raciocínio”: treinado e ajustado não apenas para prever a próxima palavra, mas seguir as instruções de uma maneira segura e consistente, passando por problemas com problemas com o raciocínio estruturado de “cadeia de pensamento” antes de produzir uma resposta final.
Esta é uma tendência que remonta ao modelo O1 do OpenAI, lançado há quase um ano em setembro de 2024, mas que inúmeros líderes de Ai Labs agora adotaram – forçando os modelos a pensar mais em várias etapas e verificar seu próprio trabalho antes emitindo uma resposta bem fundamentada ao usuário.
Isso os torna mais adequados para tarefas como codificação, resolver problemas de matemática ou responder a perguntas factuais com explicações – mas também significa que suas respostas são filtradas e afastadas de conteúdo inseguro ou indesejável.
Um modelo básico é diferente. É a versão bruta e pré-teria de um modelo de linguagem grande antes que esse alinhamento específico de raciocínio seja aplicado. Os modelos básicos simplesmente tentam prever o próximo pedaço de texto, dado o que veio antes, sem corrimões embutidos, preferências estilísticas ou comportamentos de recusa.
Eles são apreciados por alguns pesquisadores porque eles pode produzir uma saída mais variada e menos restrita, e porque estudar seu comportamento não alinhado pode Revele como os modelos armazenam conhecimento e padrões a partir de seus dados de treinamento.
O objetivo de Morris era “reverter” o processo de alinhamento do OpenAI e restaurar o GPT-20B menor para algo muito mais próximo de seu estado pré-traido original.
“Basicamente, revertemos a parte de alinhamento do treinamento da LLM, por isso temos algo que produz um texto de aparência natural novamente”, escreveu ele em um tópico X anunciando o projeto. “Ele não se envolve mais no COT. Ele está de volta a um modelo que apenas prevê o próximo token em texto genérico”.
O Openai não abre um modelo básico desde o GPT-2 em 2019. Eles lançaram recentemente o GPT-ROSS, que é apenas raciocínio …
ou é?
Acontece que, embaixo da superfície, ainda existe um modelo básico forte. Então nós o extraímos.
Apresentando o GPT-20B-BASE? pic.twitter.com/3xryqglf8z
– Jack Morris (@jxmnop) 13 de agosto de 2025
Em vez de tentar jailbreak, o modelo com avisos inteligentes-que Morris disse que se mostrou ineficaz durante seus primeiros experimentos-ele fez uma abordagem diferente depois de uma conversa com o ex-co-fundador do Openai, ex-pesquisador antrópico e máquinas de pensamento atual Cientista -chefe John Schulman.
A chave era pensar na reversão do alinhamento como um pequeno problema de otimização: se a maioria dos conhecimentos pré-treinados do modelo ainda estiver presente em seus pesos, apenas uma pequena atualização de baixo rank pode ser necessária para levá-la ao comportamento do modelo básico.
Morris implementou essa idéia aplicando uma atualização LORA (adaptador de baixo rank) a apenas três camadas do modelo-as camadas MLP nas posições 7, 15 e 23-com uma classificação de 16.
Isso significava treinar cerca de 60 milhões de parâmetros, ou 0,3% do total de 21 bilhões do modelo. Ele usou cerca de 20.000 documentos do conjunto de dados FineWeb, mantendo o formato o mais próximo possível do pré-treinamento original (“…..
O treinamento levou quatro dias em oito GPUs NVIDIA H200, Morris disse à VentureBeat via mensagem direta em X, com uma taxa de aprendizado de 2E-6, um tamanho de lotes de 16 e um comprimento máximo de sequência de 8.192 tokens.
Posteriormente, ele fundiu os pesos de Lora de volta ao modelo para que os usuários possam executá -lo como um artefato independente e totalmente fino.
Morris também teve que lidar com as limitações das ferramentas abertas atuais para arquiteturas de mistura de especialistas (MOE) de ajuste fino como GPT.
Morris disse que usou a estrutura do Hugging Face, que ele disse que trava com frequência e só suporta certos modos de treinamento, e escreveu seu próprio arnês para o ponto de verificação com frequência e pular os lotes de dados que arriscavam sobrecarregar a memória da GPU.
É importante ressaltar que, em resposta a perguntas e críticas da comunidade de IA em X, Morris também esclareceu que não está alegando ter recuperado o modelo básico “pesos” – as configurações internas dos neurônios artificiais que compõem a rede neural do modelo e governam seu comportamento.
O mundo da IA está louco agora, porque você pode apenas reivindicar ter extraído o modelo básico do GPT-ROSS, enquanto efetivamente você acabou de treinar uma Lora no Fineweb lol https://t.co/oanawpmq26
– Niels Rogge (@nielsrogge) 15 de agosto de 2025
Em vez disso, Morris diz que seu trabalho “recuperou a distribuição * * do modelo base * com algum erro”, ou seja, os padrões de probabilidade que o modelo usa para gerar saídas – mesmo que os pesos que produzam esses padrões possam diferir.
Algumas pessoas estão ficando confusas sobre o experimento –
Não recuperamos os pesos *do modelo base *. Isso pode nem ser possível.
Recuperamos a distribuição * *do modelo base, com algum erro. Uma questão importante é quanto.
Tentando descobrir isso agora … https://t.co/lfug5qy4h0
– Jack Morris (@jxmnop) 15 de agosto de 2025
Como o novo comportamento do modelo GPT-20B-BASE difere do GPT-OSS-20B
A base GPT-20B resultante está visivelmente livre em suas saídas. Não é mais inadimplente explicar o raciocínio passo a passo e produzirá uma gama mais ampla de respostas, incluindo instruções O modelo alinhado do OpenAi se recusaria a dar – como Construindo uma arma, listando palavrões ou planejando atividades ilegais.
Em testes curtos, Morris encontrou também poderia reproduzir passagens literárias de obras protegidas por direitos autoraisincluindo três em cada seis trechos de livros que ele tentou, mostrando que algum material memorizado ainda está acessível.
Mesmo assim, alguns vestígios de alinhamento permanecem. Morris observou que, se você solicitar o modelo em um formato de estilo assistente (“Humano: … Assistente: …”), às vezes ainda age como um chatbot educado. E Quando executado pelo modelo original de bate-papo GPT, ele ainda pode realizar tarefas de raciocínioembora com alguma perda de qualidade.
Para obter melhores resultados no modo de texto livre, ele aconselha as solicitações de antecedentes com o token especial de iniciação do modelo <| startOfText |> e evitar os modelos de bate-papo inteiramente.
Com base no grande lançamento da família GPT do Openai
A família GPT-OSS estreou com considerável atenção. Os dois modelos-GPT-OSS-120B e GPT-20B-são somente de texto, multilíngues e construídos com uma arquitetura de transformador de mistura de especialistas. Eles foram libertados sob a licença permissiva do Apache 2.0, permitindo uso local irrestrito, ajuste fino e implantação comercial.
Os benchmarks de desempenho do OpenAI mostraram o modelo de 120b maior correspondendo ou excedendo o O4-mini proprietário nas tarefas de raciocínio e uso de ferramentas, com o menor 20B competitivo com O3-mini.
Este foi o primeiro lançamento de peso aberto do OpenAI em seis anos, um movimento amplamente interpretado como Uma resposta à pressão competitiva de outros fornecedores de pesos abertos, incluindo o Deepseek R1 da China e o QWEN 3.
A empresa posicionou o GPT OSS como uma maneira de reengificar os desenvolvedores que se mudaram para rivalizar com modelos de código aberto e como uma plataforma para pesquisas de segurança em sistemas de peso aberto.
A reação ao GPT inicial foi misturada
A reação do desenvolvedor aos modelos GPT-OSS do Openai foi firmemente mista, com reações em geral, que vão de entusiasmado a desapontado.
Os apoiadores elogiaram a licença permissiva, a eficiência e a forte exibição nos benchmarks STEM.
Clem Delangue, CEO da Abrafing Face descreveu o lançamento como uma “adição significativa ao ecossistema aberto” e instou a comunidade a dar tempo para amadurecer.
Os críticos argumentaram que os modelos parecem fortemente treinados em dados sintéticos, tornando -os excelentes em matemática e codificação, mas menos capazes de redação criativa, conhecimento mundial em geral e raciocínio multilíngue.
Alguns testadores iniciais também levantaram preocupações sobre os filtros de segurança remanescentes e o possível viés geopolítico.
Contra esse cenário, O GPT-20B-20B da Morris se destaca como um exemplo concreto de como os modelos de peso aberto podem ser adaptados e reaproveitados na natureza poucos dias após a liberação.
De fato, em contraste com a maneira como o GPT-OSS do Openai foi recebido, a maioria das respostas ao trabalho de Morris que eu vi são quentes e exaltadas. Como um cientista da computação escreveu em X: “Esta é a coisa mais legal que eu já vi no Twitter (X) nos últimos meses”.
Cara, essa é a coisa mais legal que eu já vi no Twitter nos últimos meses eu amo modelos de base
– Gameplay (@jmrludan) 15 de agosto de 2025
A abordagem afasta grande parte do comportamento aberto e devolve o modelo a algo mais próximo de um sistema cru e pré -terencioso – uma mudança valiosa para pesquisadores que estudam memorização, viés ou o impacto do alinhamento, mas que também vem com maiores riscos de segurança.
Além disso, Morris diz que seu trabalho sobre restauração de modelos de raciocínio para modelos básicos pré-treinados e não raciocínio continuará comparando a extração em modelos de instruções que não são de rendimento, como os oferecidos por Qwen.
Insights diários sobre casos de uso de negócios com VB diariamente
Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins de VB aqui.
Ocorreu um erro.
Fonte ==> Cyberseo