OpenAI estreia modelo de codificação GPT‑5.1-Codex-Max e já concluiu uma tarefa de 24 horas internamente

OpenAI estreia modelo de codificação GPT‑5.1-Codex-Max e já concluiu uma tarefa de 24 horas internamente

OpenAI tem introduziu GPT‑5.1-Codex-Maxum novo modelo de codificação agente de fronteira agora disponível em seu ambiente de desenvolvedor Codex. O lançamento marca um avanço significativo na engenharia de software assistida por IA, oferecendo raciocínio aprimorado de longo horizonte, eficiência e recursos interativos em tempo real. GPT‑5.1-Codex-Max agora substituirá GPT‑5.1-Codex como modelo padrão em superfícies integradas ao Codex.

O novo modelo foi projetado para servir como um agente de desenvolvimento de software persistente e de alto contexto, capaz de gerenciar refatoradores complexos, depurar fluxos de trabalho e tarefas em escala de projeto em múltiplas janelas de contexto.

Ele vem logo após o Google lançar seu novo e poderoso modelo Gemini 3 Pro ontem, mas ainda o supera ou iguala nos principais benchmarks de codificação:

Sobre SWE-Bench verificado, GPT‑5.1-Codex-Max alcançou 77,9% de precisão com um esforço de raciocínio extra-alto, ultrapassando os 76,2% do Gemini 3 Pro.

Também levou Terminal-Bench 2.0, com precisão de 58,1% contra 54,2% do Gemini, e igualou a pontuação do Gemini de 2.439 no LiveCodeBench Pro, um benchmark de codificação competitivo da Elo.

Quando comparado com a configuração mais avançada do Gemini 3 Pro – seu modelo Deep Thinking – o Codex-Max também mantém uma ligeira vantagem em benchmarks de codificação de agentes.

Benchmarks de desempenho: ganhos incrementais em tarefas importantes

O GPT‑5.1-Codex-Max demonstra melhorias mensuráveis ​​em relação ao GPT‑5.1-Codex em uma variedade de benchmarks de engenharia de software padrão.

No SWE-Lancer IC SWE, alcançou 79,9% de precisão, um aumento significativo em relação aos 66,3% do GPT-5.1-Codex. No SWE-Bench Verified (n=500), atingiu 77,9% de precisão com esforço de raciocínio extra-alto, superando os 73,7% do GPT-5.1-Codex.

O desempenho no Terminal Bench 2.0 (n=89) mostrou melhorias mais modestas, com o GPT‑5.1-Codex-Max alcançando 58,1% de precisão em comparação com 52,8% do GPT‑5.1-Codex.

Todas as avaliações foram executadas com compactação e esforço de raciocínio extra-alto habilitados.

Esses resultados indicam que o novo modelo oferece um teto mais alto tanto na correção do benchmark quanto na usabilidade no mundo real sob cargas de raciocínio estendidas.

Arquitetura Técnica: Raciocínio de Longo Horizonte via Compactação

Uma grande melhoria arquitetônica no GPT‑5.1-Codex-Max é sua capacidade de raciocinar de forma eficaz em sessões estendidas de entrada-saída usando um mecanismo chamado compactação.

Isso permite que o modelo retenha informações contextuais importantes enquanto descarta detalhes irrelevantes à medida que se aproxima do limite da janela de contexto – permitindo efetivamente o trabalho contínuo em milhões de tokens sem degradação do desempenho.

O modelo foi observado internamente para concluir tarefas que duram mais de 24 horas, incluindo refatoradores de várias etapas, iteração orientada a testes e depuração autônoma.

A compactação também melhora a eficiência do token. Com esforço de raciocínio médio, o GPT‑5.1-Codex-Max usou aproximadamente 30% menos tokens de pensamento do que o GPT‑5.1-Codex para uma precisão comparável ou melhor, o que tem implicações tanto no custo quanto na latência.

Integração de plataforma e casos de uso

GPT‑5.1-Codex-Max está atualmente disponível em vários ambientes baseados em Codex, que se referem às próprias ferramentas e interfaces integradas da OpenAI criadas especificamente para agentes de IA focados em código. Estes incluem:

  • CLI do Codexa ferramenta de linha de comando oficial da OpenAI (@openai/codex), onde GPT‑5.1-Codex-Max já está ativo.

  • Extensões IDEprovavelmente desenvolvido ou mantido pela OpenAI, embora nenhuma integração IDE específica de terceiros tenha sido nomeada.

  • Ambientes de codificação interativoscomo aqueles usados ​​para demonstrar aplicativos de simulação de frontend como CartPole ou Snell’s Law Explorer.

  • Ferramentas de revisão de código internousado pelas equipes de engenharia da OpenAI.

Por enquanto, o GPT‑5.1-Codex-Max ainda não está disponível via API pública, embora a OpenAI afirme que isso estará disponível em breve. Os usuários que desejam trabalhar com o modelo em ambientes de terminal hoje podem fazê-lo instalando e usando o Codex CLI.

Atualmente não está confirmado se ou como o modelo será integrado a IDEs de terceiros, a menos que sejam construídos sobre CLI ou API futura.

O modelo é capaz de interagir com ferramentas e simulações ao vivo. Os exemplos mostrados no comunicado incluem:

  • Um simulador interativo de gradiente de política CartPole, que visualiza o treinamento e as ativações de aprendizado por reforço.

  • Um explorador óptico da Lei de Snell, com suporte para rastreamento de raio dinâmico em índices de refração.

Essas interfaces exemplificam a capacidade do modelo de raciocinar em tempo real enquanto mantém uma sessão de desenvolvimento interativa — unindo efetivamente computação, visualização e implementação em um único loop.

Restrições de segurança e segurança cibernética

Embora o GPT‑5.1-Codex-Max não atenda ao limite de capacidade “Alto” ​​da OpenAI para segurança cibernética sob sua Estrutura de Preparação, é atualmente o modelo de segurança cibernética mais capaz que a OpenAI implantou. Ele oferece suporte a casos de uso como detecção e correção automatizada de vulnerabilidades, mas com sandboxing estrito e acesso à rede desabilitado por padrão.

A OpenAI não relata nenhum aumento no uso malicioso em escala, mas introduziu sistemas de monitoramento aprimorados, incluindo roteamento de atividades e mecanismos de interrupção para comportamento suspeito. O Codex permanece isolado em um espaço de trabalho local, a menos que os desenvolvedores optem por um acesso mais amplo, mitigando riscos como a injeção imediata de conteúdo não confiável.

Contexto de implantação e uso do desenvolvedor

GPT‑5.1-Codex-Max está atualmente disponível para usuários em ChatGPT Plus, Pro, Business, Edu e Enterprise planos. Ele também se tornará o novo padrão em ambientes baseados em Codex, substituindo o GPT‑5.1-Codex, que era um modelo de uso mais geral.

A OpenAI afirma que 95% de seus engenheiros internos usam o Codex semanalmente e, desde a adoção, esses engenheiros enviaram em média cerca de 70% mais solicitações pull, destacando o impacto da ferramenta na velocidade de desenvolvimento interno.

Apesar da sua autonomia e persistência, a OpenAI sublinha que o Codex-Max deve ser tratado como um assistente de codificação, e não como um substituto para a revisão humana. O modelo produz logs de terminal, citações de teste e saídas de chamadas de ferramentas para oferecer suporte à transparência no código gerado.

Panorama

GPT‑5.1-Codex-Max representa uma evolução significativa na estratégia da OpenAI em direção a ferramentas de desenvolvimento de agentes, oferecendo maior profundidade de raciocínio, eficiência de token e recursos interativos em tarefas de engenharia de software. Ao estender suas estratégias de gerenciamento de contexto e compactação, o modelo está posicionado para lidar com tarefas na escala de repositórios completos, em vez de arquivos ou trechos individuais.

Com ênfase contínua em fluxos de trabalho de agentes, sandboxes seguras e métricas de avaliação do mundo real, o Codex-Max prepara o terreno para a próxima geração de ambientes de programação assistidos por IA – ao mesmo tempo em que ressalta a importância da supervisão em sistemas cada vez mais autônomos.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *