Claude Mythos expôs uma dura verdade: o processo de correção de sua empresa é muito lento

Edição - Istoé TECH

Em 2024, pesquisadores da Universidade de Illinois descobriram que o GPT-4, quando fornecido com uma descrição de vulnerabilidades e exposições comuns (CVE), poderia explorar autonomamente 87% de um conjunto de dados de um dia com curadoria de 15 vulnerabilidades. Sem a descrição, só poderia explorar 7%. Isto proporcionou uma “margem de segurança” para a indústria porque, embora a IA pudesse explorar vulnerabilidades conhecidas, não conseguia descobri-las.

No entanto, em 7 de abril, Antrópico anunciado que o Claude Mythos Preview havia fechado essa margem, com o modelo descobrindo de forma autônoma milhares de vulnerabilidades de dia zero nos principais sistemas operacionais e navegadores. Separadamente, a Mythos obteve 83,1% no benchmark de reprodução de vulnerabilidades CyberGym. Em uma campanha direcionada ao OpenBSD em 1.000 execuções de scaffold, o custo total de computação foi inferior a US$ 20.000.

Os cronogramas de exploração estão entrando em colapso. O CVE-2026-33017 da Langflow (CVSS 9.8) foi explorado 20 horas após a divulgação sem prova de conceito pública. O CVE-2026-39987 (CVSS 9.3) de Marimo foi atingido em 9 horas e 41 minutos.

A infraestrutura defensiva da qual a maioria das organizações depende não foi projetada para isso. Relatório de cenário de ameaças de 2026 da Rapid7 afirma que o tempo médio desde a publicação do CVE até a listagem de vulnerabilidades exploradas conhecidas (KEV) da CISA é de cinco dias. Tendências M do Google para 2026 relatório descobriu que a exploração está acontecendo antes mesmo de um patch ser lançado. Quando o comunicado do Langflow foi publicado, a primeira exploração chegou em 20 horas. Quando o comunicado do Marimo foi publicado, demorou menos de 10 horas.

A suposição de que sua janela de patch é segura porque a exploração leva tempo não é mais verdadeira. Aqui estão seus blocos de construção.

Substitua a priorização apenas CVSS por um filtro de três camadas

A maioria dos programas de gerenciamento de vulnerabilidades ainda prioriza apenas a pontuação CVSS. O CVSS quantifica a gravidade “teórica” de uma vulnerabilidade sem considerar se uma vulnerabilidade está sendo explorada ou com que rapidez alguém poderia transformá-la em uma arma. Uma vulnerabilidade CVSS 8.8 com histórico de exploração ativa (como a do Docker CVE-2026-34040) tem prioridade mais baixa do que uma vulnerabilidade CVSS 9.8 que nunca pode ser explorada em estado selvagem.

UM estudo recente validado contra 28.377 vulnerabilidades do mundo real oferece um substituto concreto: uma árvore de decisão de três camadas que incorpora o status CISA KEV, pontuações do Exploit Prediction Scoring System (EPSS) e CVSS, formando assim um filtro de priorização singular.

Filtro de priorização de vulnerabilidade de três camadas

Camada	Fonte de dados	Limite	Ação	SLA
1. Exploração ativa	Catálogo CISA KEV	Listado	Patch imediato	Horas
2. Exploração prevista	EPSS via FIRST.org	Pontuação ≥ 0,088	Escalar para pipeline de nível 0	24 horas
3. Linha de base de gravidade	CVSS via NVD	Pontuação ≥ 7,0	Remediação típica	Por política

Resultado validado: ganho de eficiência de 18x, cobertura de 85,6% de vulnerabilidades exploradas, redução de aproximadamente 95% na carga de trabalho de correção urgente. Todas as três fontes de dados são abertas e gratuitas.

A integração descrita é totalmente automatizável. É possível criar um script para consultar a API CISA KEV, a API EPSS do FIRST.org e o NVD, e fazer com que esse script seja executado em seu inventário de ativos para cada CVE publicado. O ser humano neste processo deve permanecer informado como aprovador, mas não como acionador.

Elimine a lacuna de autorização do agente

A criação rápida de explorações não apenas altera a forma como os patches são priorizados, mas também a forma como os controles são configurados para todos os sistemas controlados por agentes que agora possuem credenciais privilegiadas. Suas políticas de autorização não foram avaliadas em relação ao comportamento dos agentes de IA, e isso agora é um risco mensurável. CVE-2026-34040 mostrou que a arquitetura do plugin de autorização do Docker ignora silenciosamente cada plugin quando o corpo da solicitação excede 1 MB. Plug-ins comuns do AuthZ (OPA, Casbin, Prisma Cloud) desconhecem esse tipo de desvio, que ocorre no middleware do Docker antes que a solicitação chegue ao plug-in.

Quando Cyera demonstrou esta vulnerabilidadeeles mostraram que uma infraestrutura de depuração de agente de IA poderia inferir o caminho de desvio ao concluir uma tarefa legítima, sem qualquer instrução para explorar nada.

A Internet Engineering Task Force (IETF) está trabalhando em modelos de autorização para agentes. O documento rascunho-klrc-aiagent-auth-01publicado em março por participantes da AWS, Zscaler, Ping Identity e OpenAI, propõe o uso do atual Secure Production Identity Framework for Everyone (SPIFFE) e OAuth 2.0 para agentes de IA obterem credenciais provisionadas dinamicamente e de curta duração.

Separadamente, a IETF Rascunho do protocolo de identidade do agente (draft-prakash-aip-00) relata que dos cerca de 2.000 servidores de protocolo de contexto de modelo (MCP) pesquisados, nenhum tinha autenticação.

Mas esses padrões ainda estão a meses ou anos de serem implementados. Por enquanto, as equipes de segurança devem incorporar proativamente cenários de teste em nível de agente para todos os limites de autorização, como solicitações superdimensionadas, frequência de intermitência e escalonamento em várias etapas de solicitações privilegiadas.

Mapeie o raio de explosão da sua credencial

Em um pesquisa realizada pela CSA/Zenity e publicado em 16 de abril, 53% das organizações disseram já ter visto casos em que agentes de IA excederam as permissões pretendidas e 47% sofreram um incidente de segurança envolvendo um agente.

Quando ferramentas de criação de IA, como Fluir (CVE-2025-59528, CVSS 10.0), Langflow ou n8n ficam comprometidos, o raio da explosão se estende muito além do host. Essas ferramentas contêm chaves de API para modelos de fronteira, credenciais de banco de dados, tokens de armazenamento de vetores e tokens OAuth para sistemas de negócios. Um host construtor de IA comprometido não é apenas uma violação de um único sistema. É uma coleta de credenciais que desbloqueia o acesso autenticado a todos os serviços conectados.

Sem mapas de dependência de credenciais para cada host de ferramenta de IA, a resposta a incidentes para comprometimento do agente é uma adivinhação. Para cada instância, documente cada credencial, a extensão do seu acesso e o processo de rotação de credenciais relevante. Comece também a migrar chaves de API estáticas para tokens de curta duração onde os serviços downstream permitirem.

Cinco ações para este trimestre

1. Implante o filtro KEV-EPSS-CVSS de três camadas

Substitua a priorização apenas CVSS de acordo com a tabela acima. Automatize a coleta de dados de todas as três APIs como parte de um script programado em seu inventário de ativos. Resultado desejado: 18 vezes mais eficiente, 85,6% de cobertura de vulnerabilidades exploradas, redução de 95% na carga de trabalho de correção urgente.

2. Implementar patches orientados a eventos para serviços de Camada 0.

Determine quais serviços se enquadram no nível de exposição crítica: serviços expostos diretamente aos usuários da Internet, hosts construtores de IA e plano de controle de orquestração de contêineres. Acione patches orientados por eventos em uma publicação CVE em vez de aguardar a próxima janela de manutenção para esta camada.

Objetivo: implantar o patch no canary dentro de quatro horas após um CVE ser declarado crítico. Use os feeds CISA KEV e EPSS para acionar a aplicação de patches orientada por eventos. Em situações em que for impossível cumprir a meta de patch de quatro horas devido a dependências legadas, janelas de congelamento de alterações ou risco de reversão, aplique imediatamente controles de compensação, como remover a exposição da Internet ao serviço vulnerável, alternar credenciais para o serviço vulnerável, desabilitar a funcionalidade afetada do serviço (se aplicável) e identificar um proprietário de exceção para a exposição até que um patch possa ser implantado.

Não é aceitável permitir exposições ilimitadas por longos períodos enquanto se aguarda uma janela de manutenção.

3. Teste os limites de autorização na escala do agente.

Crie casos de teste para cada API com a qual os agentes de IA podem se comunicar por meio de políticas AuthZ. Especificamente, inclua casos de teste para solicitações que excedam os tamanhos de corpo de 1 MB, 5 MB e 10 MB. Isso inclui casos de teste para taxa de intermitência > 100 solicitações por segundo e casos de teste para combinações de parâmetros incomuns (sinalizadores privilegiados, montagens de host, adições de recursos). Adicionalmente, patch para Docker Engine 29.3.1 para corrigir CVE-2026-34040.

4. Mapeamento do raio de explosão de credenciais para todos os hosts do construtor de IA.

Documente cada credencial para cada instância de pipeline de IA personalizada, Langflow, Flowise, n8n e AI. Classifique cada credencial por sua vida útil (chave estática versus token de curta duração). Identifique o que cada credencial pode acessar. Configure alertas para IP ou identidade anômala para qualquer acesso de credencial.

5. Verificação de descoberta de Shadow AI para esta semana.

De acordo com dados do CSA, há mais de 50% de chance de seus agentes terem excedido os limites esperados. Verifique suas ferramentas de gerenciamento de eventos e informações de segurança (SIEM) e de monitoramento de rede para comunicações com as portas padrão do construtor AI: Langflow 7860, Flowise 3000 e n8n 5678. Quaisquer instâncias não autorizadas são uma superfície de ataque não monitorada.

A conclusão

Agentes de IA estão surgindo eOs órgãos de padronização estão respondendo. A IETF possui vários rascunhos relacionados à autenticação e autorização de agentes. O Coalizão para IA Segura publicou seu Taxonomia de segurança MCP e Princípios seguros desde o design.

Mas esses padrões se movem na velocidade do corpo dos padrões, e a janela de exploração agora é medida em horas. As organizações que implementarem o filtro de três camadas e correções orientadas por eventos neste trimestre terão uma redução mensurável na exposição. Aqueles que esperarem executarão ciclos de patches baseados em calendário contra um adversário que opera em menos de 20 horas.

Nik Kale é engenheiro principal especializado em segurança e plataformas de IA empresarial

Fonte ==> Cyberseo