OpenAI admite que a injeção imediata veio para ficar, pois as empresas ficam atrasadas nas defesas

Edição - Istoé TECH

É revigorante quando uma empresa líder em IA afirma o óbvio. Em uma postagem detalhada sobre como fortalecer o ChatGPT Atlas contra injeção imediata, a OpenAI reconheceu o que os profissionais de segurança sabem há anos: "É improvável que a injeção imediata, assim como os golpes e a engenharia social na web, sejam totalmente “resolvidos”."

O que há de novo não é o risco – é a admissão. A OpenAI, a empresa que implementa um dos agentes de IA mais utilizados, confirmou publicamente que o modo de agente “expande a superfície das ameaças à segurança” e que mesmo as defesas sofisticadas não podem oferecer garantias determinísticas. Para as empresas que já utilizam IA em produção, isto não é uma revelação. É uma validação – e um sinal de que a lacuna entre a forma como a IA é implementada e como é defendida já não é teórica.

Nada disso surpreende ninguém que execute IA em produção. O que preocupa os líderes de segurança é a lacuna entre esta realidade e a prontidão empresarial. Uma pesquisa da VentureBeat com 100 tomadores de decisão técnicos descobriu que 34,7% das organizações implantaram defesas dedicadas de injeção imediata. Os 65,3% restantes não adquiriram essas ferramentas ou não puderam confirmar que as adquiriram.

A ameaça agora é oficialmente permanente. A maioria das empresas ainda não está equipada para detectá-lo, e muito menos para impedi-lo.

O atacante automatizado baseado em LLM da OpenAI encontrou lacunas que as equipes vermelhas não perceberam

A arquitetura defensiva da OpenAI merece escrutínio porque representa o teto atual do que é possível. A maioria, senão todas, as empresas comerciais não serão capazes de replicá-lo, o que torna os avanços que partilharam esta semana ainda mais relevantes para os líderes de segurança que protegem aplicações e plataformas de IA em desenvolvimento.

A empresa construiu um "Atacante automatizado baseado em LLM" treinado de ponta a ponta com aprendizado por reforço para descobrir vulnerabilidades de injeção imediata. Ao contrário do red-teaming tradicional que revela falhas simples, o sistema da OpenAI pode "orientar um agente para executar fluxos de trabalho sofisticados e prejudiciais de longo prazo que se desdobram em dezenas (ou mesmo centenas) de etapas" extraindo strings de saída específicas ou acionando chamadas de ferramenta não intencionais de etapa única.

Veja como funciona. O invasor automatizado propõe uma injeção candidata e a envia para um simulador externo. O simulador executa uma implementação contrafactual de como o agente vítima alvo se comportaria, retorna um raciocínio completo e um rastreamento de ação, e o invasor itera. A OpenAI afirma ter descoberto padrões de ataque que "não apareceu em nossa campanha de equipe vermelha humana ou em relatórios externos."

Um ataque que o sistema descobriu demonstra o que está em jogo. Um e-mail malicioso plantado na caixa de entrada de um usuário continha instruções ocultas. Quando o agente Atlas escaneou as mensagens para redigir uma resposta de ausência temporária, ele seguiu o prompt injetado, redigindo uma carta de demissão ao CEO do usuário. A ausência nunca foi escrita. O agente renunciou em nome do usuário.

OpenAI respondeu enviando "um modelo recém-treinado contraditoriamente e salvaguardas circundantes reforçadas." A pilha defensiva da empresa agora combina descoberta automatizada de ataques, treinamento adversário contra ataques recém-descobertos e salvaguardas em nível de sistema fora do próprio modelo.

Contrariando o quão oblíquas e cautelosas as empresas de IA podem ser em relação aos resultados do red teaming, a OpenAI foi direta sobre os limites: "A natureza da injeção imediata torna as garantias determinísticas de segurança um desafio." Por outras palavras, isto significa que “mesmo com esta infra-estrutura, não podem garantir a defesa”.

Esta admissão surge à medida que as empresas passam de copilotos para agentes autónomos – precisamente quando a injeção imediata deixa de ser um risco teórico e se torna um risco operacional.

OpenAI define o que as empresas podem fazer para se manterem seguras

A OpenAI devolveu uma responsabilidade significativa às empresas e aos usuários que elas apoiam. É um padrão de longa data que as equipes de segurança devem reconhecer nos modelos de responsabilidade compartilhada na nuvem.

A empresa recomenda explicitamente o uso do modo desconectado quando o agente não precisa de acesso a sites autenticados. Aconselha a análise cuidadosa das solicitações de confirmação antes que o agente tome medidas consequentes, como enviar e-mails ou concluir compras.

E alerta contra instruções amplas. "Evite solicitações excessivamente amplas, como ‘revise meus e-mails e tome as medidas necessárias’" OpenAI escreveu. "A ampla latitude torna mais fácil que conteúdos ocultos ou maliciosos influenciem o agente, mesmo quando existem salvaguardas."

As implicações são claras no que diz respeito à autonomia dos agentes e às suas ameaças potenciais. Quanto mais independência você dá a um agente de IA, mais superfície de ataque você cria. A OpenAI está construindo defesas, mas as empresas e os usuários que elas protegem são responsáveis por limitar a exposição.

Onde as empresas estão hoje

Para compreender até que ponto as empresas estão realmente preparadas, a VentureBeat entrevistou 100 decisores técnicos de diferentes tamanhos de empresas, desde startups a empresas com mais de 10.000 funcionários. Fizemos uma pergunta simples: sua organização adquiriu e implementou soluções dedicadas para filtragem imediata e detecção de abusos?

Apenas 34,7% disseram que sim. Os restantes 65,3% disseram não ou não puderam confirmar o estatuto da sua organização.

Essa divisão é importante. Mostra que a defesa imediata contra injeções não é mais um conceito emergente; é uma categoria de produtos de remessa com adoção empresarial real. Mas também revela quão adiantado o mercado ainda está. Quase dois terços das organizações que executam sistemas de IA atualmente operam sem proteções dedicadas, confiando, em vez disso, em salvaguardas de modelos padrão, políticas internas ou treinamento de usuários.

Entre a maioria das organizações pesquisadas sem defesas dedicadas, a resposta predominante em relação às compras futuras foi a incerteza. Quando questionados sobre compras futuras, a maioria dos entrevistados não conseguiu articular um cronograma claro ou um caminho de decisão. O sinal mais revelador não foi a falta de fornecedores ou soluções disponíveis – foi a indecisão. Em muitos casos, as organizações parecem estar a implementar a IA mais rapidamente do que a formalizar a forma como esta será protegida.

Os dados não conseguem explicar por que razão a adopção demora – seja devido a restrições orçamentais, prioridades concorrentes, implementações imaturas ou uma crença de que as salvaguardas existentes são suficientes. Mas deixa uma coisa clara: a adoção da IA está ultrapassando a prontidão da segurança da IA.

O problema da assimetria

A abordagem defensiva da OpenAI aproveita vantagens que a maioria das empresas não possui. A empresa tem acesso direto aos seus próprios modelos, um profundo conhecimento de sua pilha de defesa e a computação para executar simulações de ataques contínuos. Seu atacante automatizado obtém "acesso privilegiado aos traços de raciocínio… do defensor," dando "uma vantagem assimétrica, aumentando as probabilidades de ultrapassar os adversários externos."

As empresas que implantam agentes de IA operam em desvantagem significativa. Embora a OpenAI aproveite o acesso de caixa branca e simulações contínuas, a maioria das organizações trabalha com modelos de caixa preta e visibilidade limitada dos processos de raciocínio de seus agentes. Poucos têm os recursos para uma infraestrutura automatizada de red-teaming. Esta assimetria cria um problema complexo: à medida que as organizações expandem as implementações de IA, as suas capacidades defensivas permanecem estáticas, à espera que os ciclos de aquisição se recuperem.

Fornecedores terceirizados de defesa contra injeção imediata, incluindo Robust Intelligence, Lakera, Prompt Security (agora parte do SentinelOne) e outros, estão tentando preencher essa lacuna. Mas a adoção continua baixa. Os 65,3% das organizações sem defesas dedicadas estão a operar com base em quaisquer salvaguardas integradas que os seus fornecedores de modelos incluam, além de documentos políticos e formação de sensibilização.

A postagem da OpenAI deixa claro que mesmo defesas sofisticadas não podem oferecer garantias determinísticas.

O que os CISOs devem tirar disso

O anúncio da OpenAI não altera o modelo de ameaça; isso o valida. A injeção imediata é real, sofisticada e permanente. A empresa que envia o agente de IA mais avançado acaba de dizer aos líderes de segurança que esperem essa ameaça indefinidamente.

Seguem três implicações práticas:

Quanto maior a autonomia do agente, maior a superfície de ataque. A orientação da OpenAI para evitar solicitações amplas e limitar o acesso logado se aplica além do Atlas. Qualquer agente de IA com ampla latitude e acesso a sistemas sensíveis cria a mesma exposição. Como observou a Forrester durante a sua cimeira anual de segurança no início deste ano, a IA generativa é um agente do caos. Esta previsão revelou-se presciente com base nos resultados dos testes da OpenAI divulgados esta semana.
A detecção é mais importante do que a prevenção. Se a defesa determinística não for possível, a visibilidade torna-se crítica. As organizações precisam saber quando os agentes se comportam de forma inesperada, e não apenas esperar que as salvaguardas sejam válidas.
A decisão de comprar versus construir está ativa. A OpenAI está investindo pesadamente em equipes automatizadas e treinamento adversário. A maioria das empresas não consegue replicar isso. A questão é se as ferramentas de terceiros podem colmatar a lacuna e se os 65,3% sem defesas dedicadas irão adoptar antes que um incidente force o problema.

Resultado final

A OpenAI declarou o que os profissionais de segurança já sabiam: a injeção imediata é uma ameaça permanente. A empresa que mais investe na IA de agência confirmou esta semana que “o modo agente… expande a superfície de ameaças à segurança” e que a defesa requer investimento contínuo, não uma solução única.

34,7% das organizações que executam defesas dedicadas não estão imunes, mas estão posicionadas para detectar ataques quando eles acontecem. A maioria das organizações, por outro lado, depende de salvaguardas padrão e documentos políticos, em vez de proteções criadas especificamente para esse fim. A investigação da OpenAI deixa claro que mesmo as defesas sofisticadas não podem oferecer garantias determinísticas – sublinhando o risco dessa abordagem.

O anúncio da OpenAI esta semana sublinha o que os dados já mostram: a lacuna entre a implantação de IA e a proteção de IA é real – e está a aumentar. Esperar por garantias determinísticas já não é uma estratégia. Os líderes de segurança precisam agir em conformidade.

Fonte ==> Cyberseo