OpenAI estreia modelo de codificação GPT‑5.1-Codex-Max e já concluiu uma tarefa de 24 horas internamente

Edição - Istoé TECH

OpenAI tem introduziu GPT‑5.1-Codex-Maxum novo modelo de codificação agente de fronteira agora disponível em seu ambiente de desenvolvedor Codex. O lançamento marca um avanço significativo na engenharia de software assistida por IA, oferecendo raciocínio aprimorado de longo horizonte, eficiência e recursos interativos em tempo real. GPT‑5.1-Codex-Max agora substituirá GPT‑5.1-Codex como modelo padrão em superfícies integradas ao Codex.

O novo modelo foi projetado para servir como um agente de desenvolvimento de software persistente e de alto contexto, capaz de gerenciar refatoradores complexos, depurar fluxos de trabalho e tarefas em escala de projeto em múltiplas janelas de contexto.

Ele vem logo após o Google lançar seu novo e poderoso modelo Gemini 3 Pro ontem, mas ainda o supera ou iguala nos principais benchmarks de codificação:

Sobre SWE-Bench verificado, GPT‑5.1-Codex-Max alcançou 77,9% de precisão com um esforço de raciocínio extra-alto, ultrapassando os 76,2% do Gemini 3 Pro.

Também levou Terminal-Bench 2.0, com precisão de 58,1% contra 54,2% do Gemini, e igualou a pontuação do Gemini de 2.439 no LiveCodeBench Pro, um benchmark de codificação competitivo da Elo.

Quando comparado com a configuração mais avançada do Gemini 3 Pro – seu modelo Deep Thinking – o Codex-Max também mantém uma ligeira vantagem em benchmarks de codificação de agentes.

Benchmarks de desempenho: ganhos incrementais em tarefas importantes

O GPT‑5.1-Codex-Max demonstra melhorias mensuráveis em relação ao GPT‑5.1-Codex em uma variedade de benchmarks de engenharia de software padrão.

No SWE-Lancer IC SWE, alcançou 79,9% de precisão, um aumento significativo em relação aos 66,3% do GPT-5.1-Codex. No SWE-Bench Verified (n=500), atingiu 77,9% de precisão com esforço de raciocínio extra-alto, superando os 73,7% do GPT-5.1-Codex.

O desempenho no Terminal Bench 2.0 (n=89) mostrou melhorias mais modestas, com o GPT‑5.1-Codex-Max alcançando 58,1% de precisão em comparação com 52,8% do GPT‑5.1-Codex.

Todas as avaliações foram executadas com compactação e esforço de raciocínio extra-alto habilitados.

Esses resultados indicam que o novo modelo oferece um teto mais alto tanto na correção do benchmark quanto na usabilidade no mundo real sob cargas de raciocínio estendidas.

Arquitetura Técnica: Raciocínio de Longo Horizonte via Compactação

Uma grande melhoria arquitetônica no GPT‑5.1-Codex-Max é sua capacidade de raciocinar de forma eficaz em sessões estendidas de entrada-saída usando um mecanismo chamado compactação.

Isso permite que o modelo retenha informações contextuais importantes enquanto descarta detalhes irrelevantes à medida que se aproxima do limite da janela de contexto – permitindo efetivamente o trabalho contínuo em milhões de tokens sem degradação do desempenho.

O modelo foi observado internamente para concluir tarefas que duram mais de 24 horas, incluindo refatoradores de várias etapas, iteração orientada a testes e depuração autônoma.

A compactação também melhora a eficiência do token. Com esforço de raciocínio médio, o GPT‑5.1-Codex-Max usou aproximadamente 30% menos tokens de pensamento do que o GPT‑5.1-Codex para uma precisão comparável ou melhor, o que tem implicações tanto no custo quanto na latência.

Integração de plataforma e casos de uso

GPT‑5.1-Codex-Max está atualmente disponível em vários ambientes baseados em Codex, que se referem às próprias ferramentas e interfaces integradas da OpenAI criadas especificamente para agentes de IA focados em código. Estes incluem:

CLI do Codexa ferramenta de linha de comando oficial da OpenAI (@openai/codex), onde GPT‑5.1-Codex-Max já está ativo.
Extensões IDEprovavelmente desenvolvido ou mantido pela OpenAI, embora nenhuma integração IDE específica de terceiros tenha sido nomeada.
Ambientes de codificação interativoscomo aqueles usados para demonstrar aplicativos de simulação de frontend como CartPole ou Snell’s Law Explorer.
Ferramentas de revisão de código internousado pelas equipes de engenharia da OpenAI.

Por enquanto, o GPT‑5.1-Codex-Max ainda não está disponível via API pública, embora a OpenAI afirme que isso estará disponível em breve. Os usuários que desejam trabalhar com o modelo em ambientes de terminal hoje podem fazê-lo instalando e usando o Codex CLI.

Atualmente não está confirmado se ou como o modelo será integrado a IDEs de terceiros, a menos que sejam construídos sobre CLI ou API futura.

O modelo é capaz de interagir com ferramentas e simulações ao vivo. Os exemplos mostrados no comunicado incluem:

Um simulador interativo de gradiente de política CartPole, que visualiza o treinamento e as ativações de aprendizado por reforço.
Um explorador óptico da Lei de Snell, com suporte para rastreamento de raio dinâmico em índices de refração.

Essas interfaces exemplificam a capacidade do modelo de raciocinar em tempo real enquanto mantém uma sessão de desenvolvimento interativa — unindo efetivamente computação, visualização e implementação em um único loop.

Restrições de segurança e segurança cibernética

Embora o GPT‑5.1-Codex-Max não atenda ao limite de capacidade “Alto” da OpenAI para segurança cibernética sob sua Estrutura de Preparação, é atualmente o modelo de segurança cibernética mais capaz que a OpenAI implantou. Ele oferece suporte a casos de uso como detecção e correção automatizada de vulnerabilidades, mas com sandboxing estrito e acesso à rede desabilitado por padrão.

A OpenAI não relata nenhum aumento no uso malicioso em escala, mas introduziu sistemas de monitoramento aprimorados, incluindo roteamento de atividades e mecanismos de interrupção para comportamento suspeito. O Codex permanece isolado em um espaço de trabalho local, a menos que os desenvolvedores optem por um acesso mais amplo, mitigando riscos como a injeção imediata de conteúdo não confiável.

Contexto de implantação e uso do desenvolvedor

GPT‑5.1-Codex-Max está atualmente disponível para usuários em ChatGPT Plus, Pro, Business, Edu e Enterprise planos. Ele também se tornará o novo padrão em ambientes baseados em Codex, substituindo o GPT‑5.1-Codex, que era um modelo de uso mais geral.

A OpenAI afirma que 95% de seus engenheiros internos usam o Codex semanalmente e, desde a adoção, esses engenheiros enviaram em média cerca de 70% mais solicitações pull, destacando o impacto da ferramenta na velocidade de desenvolvimento interno.

Apesar da sua autonomia e persistência, a OpenAI sublinha que o Codex-Max deve ser tratado como um assistente de codificação, e não como um substituto para a revisão humana. O modelo produz logs de terminal, citações de teste e saídas de chamadas de ferramentas para oferecer suporte à transparência no código gerado.

Panorama

GPT‑5.1-Codex-Max representa uma evolução significativa na estratégia da OpenAI em direção a ferramentas de desenvolvimento de agentes, oferecendo maior profundidade de raciocínio, eficiência de token e recursos interativos em tarefas de engenharia de software. Ao estender suas estratégias de gerenciamento de contexto e compactação, o modelo está posicionado para lidar com tarefas na escala de repositórios completos, em vez de arquivos ou trechos individuais.

Com ênfase contínua em fluxos de trabalho de agentes, sandboxes seguras e métricas de avaliação do mundo real, o Codex-Max prepara o terreno para a próxima geração de ambientes de programação assistidos por IA – ao mesmo tempo em que ressalta a importância da supervisão em sistemas cada vez mais autônomos.

Fonte ==> Cyberseo