OpenAI tem introduziu GPT‑5.1-Codex-Maxum novo modelo de codificação agente de fronteira agora disponível em seu ambiente de desenvolvedor Codex. O lançamento marca um avanço significativo na engenharia de software assistida por IA, oferecendo raciocínio aprimorado de longo horizonte, eficiência e recursos interativos em tempo real. GPT‑5.1-Codex-Max agora substituirá GPT‑5.1-Codex como modelo padrão em superfícies integradas ao Codex.
O novo modelo foi projetado para servir como um agente de desenvolvimento de software persistente e de alto contexto, capaz de gerenciar refatoradores complexos, depurar fluxos de trabalho e tarefas em escala de projeto em múltiplas janelas de contexto.
Ele vem logo após o Google lançar seu novo e poderoso modelo Gemini 3 Pro ontem, mas ainda o supera ou iguala nos principais benchmarks de codificação:
Sobre SWE-Bench verificado, GPT‑5.1-Codex-Max alcançou 77,9% de precisão com um esforço de raciocínio extra-alto, ultrapassando os 76,2% do Gemini 3 Pro.
Também levou Terminal-Bench 2.0, com precisão de 58,1% contra 54,2% do Gemini, e igualou a pontuação do Gemini de 2.439 no LiveCodeBench Pro, um benchmark de codificação competitivo da Elo.
Quando comparado com a configuração mais avançada do Gemini 3 Pro – seu modelo Deep Thinking – o Codex-Max também mantém uma ligeira vantagem em benchmarks de codificação de agentes.
Benchmarks de desempenho: ganhos incrementais em tarefas importantes
O GPT‑5.1-Codex-Max demonstra melhorias mensuráveis em relação ao GPT‑5.1-Codex em uma variedade de benchmarks de engenharia de software padrão.
No SWE-Lancer IC SWE, alcançou 79,9% de precisão, um aumento significativo em relação aos 66,3% do GPT-5.1-Codex. No SWE-Bench Verified (n=500), atingiu 77,9% de precisão com esforço de raciocínio extra-alto, superando os 73,7% do GPT-5.1-Codex.
O desempenho no Terminal Bench 2.0 (n=89) mostrou melhorias mais modestas, com o GPT‑5.1-Codex-Max alcançando 58,1% de precisão em comparação com 52,8% do GPT‑5.1-Codex.
Todas as avaliações foram executadas com compactação e esforço de raciocínio extra-alto habilitados.
Esses resultados indicam que o novo modelo oferece um teto mais alto tanto na correção do benchmark quanto na usabilidade no mundo real sob cargas de raciocínio estendidas.
Arquitetura Técnica: Raciocínio de Longo Horizonte via Compactação
Uma grande melhoria arquitetônica no GPT‑5.1-Codex-Max é sua capacidade de raciocinar de forma eficaz em sessões estendidas de entrada-saída usando um mecanismo chamado compactação.
Isso permite que o modelo retenha informações contextuais importantes enquanto descarta detalhes irrelevantes à medida que se aproxima do limite da janela de contexto – permitindo efetivamente o trabalho contínuo em milhões de tokens sem degradação do desempenho.
O modelo foi observado internamente para concluir tarefas que duram mais de 24 horas, incluindo refatoradores de várias etapas, iteração orientada a testes e depuração autônoma.
A compactação também melhora a eficiência do token. Com esforço de raciocínio médio, o GPT‑5.1-Codex-Max usou aproximadamente 30% menos tokens de pensamento do que o GPT‑5.1-Codex para uma precisão comparável ou melhor, o que tem implicações tanto no custo quanto na latência.
Integração de plataforma e casos de uso
GPT‑5.1-Codex-Max está atualmente disponível em vários ambientes baseados em Codex, que se referem às próprias ferramentas e interfaces integradas da OpenAI criadas especificamente para agentes de IA focados em código. Estes incluem:
-
CLI do Codexa ferramenta de linha de comando oficial da OpenAI (@openai/codex), onde GPT‑5.1-Codex-Max já está ativo.
-
Extensões IDEprovavelmente desenvolvido ou mantido pela OpenAI, embora nenhuma integração IDE específica de terceiros tenha sido nomeada.
-
Ambientes de codificação interativoscomo aqueles usados para demonstrar aplicativos de simulação de frontend como CartPole ou Snell’s Law Explorer.
-
Ferramentas de revisão de código internousado pelas equipes de engenharia da OpenAI.
Por enquanto, o GPT‑5.1-Codex-Max ainda não está disponível via API pública, embora a OpenAI afirme que isso estará disponível em breve. Os usuários que desejam trabalhar com o modelo em ambientes de terminal hoje podem fazê-lo instalando e usando o Codex CLI.
Atualmente não está confirmado se ou como o modelo será integrado a IDEs de terceiros, a menos que sejam construídos sobre CLI ou API futura.
O modelo é capaz de interagir com ferramentas e simulações ao vivo. Os exemplos mostrados no comunicado incluem:
-
Um simulador interativo de gradiente de política CartPole, que visualiza o treinamento e as ativações de aprendizado por reforço.
-
Um explorador óptico da Lei de Snell, com suporte para rastreamento de raio dinâmico em índices de refração.
Essas interfaces exemplificam a capacidade do modelo de raciocinar em tempo real enquanto mantém uma sessão de desenvolvimento interativa — unindo efetivamente computação, visualização e implementação em um único loop.
Restrições de segurança e segurança cibernética
Embora o GPT‑5.1-Codex-Max não atenda ao limite de capacidade “Alto” da OpenAI para segurança cibernética sob sua Estrutura de Preparação, é atualmente o modelo de segurança cibernética mais capaz que a OpenAI implantou. Ele oferece suporte a casos de uso como detecção e correção automatizada de vulnerabilidades, mas com sandboxing estrito e acesso à rede desabilitado por padrão.
A OpenAI não relata nenhum aumento no uso malicioso em escala, mas introduziu sistemas de monitoramento aprimorados, incluindo roteamento de atividades e mecanismos de interrupção para comportamento suspeito. O Codex permanece isolado em um espaço de trabalho local, a menos que os desenvolvedores optem por um acesso mais amplo, mitigando riscos como a injeção imediata de conteúdo não confiável.
Contexto de implantação e uso do desenvolvedor
GPT‑5.1-Codex-Max está atualmente disponível para usuários em ChatGPT Plus, Pro, Business, Edu e Enterprise planos. Ele também se tornará o novo padrão em ambientes baseados em Codex, substituindo o GPT‑5.1-Codex, que era um modelo de uso mais geral.
A OpenAI afirma que 95% de seus engenheiros internos usam o Codex semanalmente e, desde a adoção, esses engenheiros enviaram em média cerca de 70% mais solicitações pull, destacando o impacto da ferramenta na velocidade de desenvolvimento interno.
Apesar da sua autonomia e persistência, a OpenAI sublinha que o Codex-Max deve ser tratado como um assistente de codificação, e não como um substituto para a revisão humana. O modelo produz logs de terminal, citações de teste e saídas de chamadas de ferramentas para oferecer suporte à transparência no código gerado.
Panorama
GPT‑5.1-Codex-Max representa uma evolução significativa na estratégia da OpenAI em direção a ferramentas de desenvolvimento de agentes, oferecendo maior profundidade de raciocínio, eficiência de token e recursos interativos em tarefas de engenharia de software. Ao estender suas estratégias de gerenciamento de contexto e compactação, o modelo está posicionado para lidar com tarefas na escala de repositórios completos, em vez de arquivos ou trechos individuais.
Com ênfase contínua em fluxos de trabalho de agentes, sandboxes seguras e métricas de avaliação do mundo real, o Codex-Max prepara o terreno para a próxima geração de ambientes de programação assistidos por IA – ao mesmo tempo em que ressalta a importância da supervisão em sistemas cada vez mais autônomos.
Fonte ==> Cyberseo