Anthropic lança Claude Sonnet 5 com um grande desconto em relação ao seu modelo top enquanto a empresa corre em direção a um IPO de grande sucesso

Edição - Istoé TECH

A Anthropic lançou hoje o Claude Sonnet 5, um novo modelo de IA que, segundo a empresa, oferece desempenho quase emblemático a preços intermediários – um movimento projetado para dar aos desenvolvedores corporativos preocupados com os custos acesso a poderosas capacidades de agente, no momento em que o laboratório de IA com sede em São Francisco avança em direção a uma oferta pública inicial que testará se as impressionantes avaliações de IA do mercado privado podem sobreviver ao escrutínio público.

O lançamento, que a Anthropic descreve como "o modelo Sonnet mais agente até agora," torna o Sonnet 5 o modelo padrão para usuários dos planos Free e Pro da Anthropic, ao mesmo tempo que o disponibiliza para clientes Max, Team e Enterprise. O preço introdutório da API é definido em US$ 2 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída até 31 de agosto, após o qual sobe para US$ 3 e US$ 15 respectivamente – ainda bem abaixo dos preços de entrada de US$ 5 e US$ 25 de saída do Opus 4.8 topo de linha da Anthropic.

A lógica estratégica é inequívoca: a Anthropic está a tentar democratizar o acesso a capacidades que até muito recentemente apenas os seus modelos mais caros conseguiam oferecer, ao mesmo tempo que constrói o tipo de adoção ampla pelos programadores que parecerá atraente num pedido S-1.

Os benchmarks do Sonnet 5 mostram que o modelo intermediário se aproxima do carro-chefe da Anthropic, Opus

O Soneto 5 apresenta grandes ganhos em relação ao seu antecessor, Soneto 4.6, em todas as avaliações divulgadas pela Antrópica. No SWE-bench Pro, um benchmark de codificação de agentes, o Sonnet 5 pontua 63,2% em comparação com os 58,1% do Sonnet 4.6 – um salto que o coloca a uma distância impressionante dos 69,2% do Opus 4.8. No Terminal-Bench 2.1, outra avaliação de codificação, a diferença diminui ainda mais: 80,4% para o Sonnet 5 versus 67,0% para o Sonnet 4.6 e 82,7% para o Opus 4.8.

No raciocínio multidisciplinar, medido pelo Último Exame da Humanidade, o Soneto 5 pontua 43,2% sem ferramentas e 57,4% com ferramentas – este último número corresponde essencialmente aos 57,9% do Opus 4.8. Nas tarefas de uso de computador avaliadas pelo OSWorld-Verified, o Sonnet 5 atinge 81,2%, acima dos 78,5%. E no GDPval-AA v2, uma referência de trabalho do conhecimento, a pontuação é de 1.618 – superando os 1.615 do Opus 4.8 e excedendo em muito os 1.395 do Sonnet 4.6.

O padrão destas avaliações conta uma história consistente: o Soneto 5 não se limita a avançar em relação ao seu antecessor. Ele atinge um nível de desempenho que se sobrepõe substancialmente ao modelo principal da Anthropic, ao mesmo tempo que custa cerca de 60% menos por token no preço padrão e ainda menos durante o período introdutório.

Parceiros empresariais dizem que os recursos de IA agente do Sonnet 5 concluem trabalhos que os modelos anteriores abandonaram

A ênfase nas capacidades de agente – a capacidade de planejar, usar ferramentas como navegadores e terminais e executar fluxos de trabalho de várias etapas de forma autônoma – reflete onde o centro de gravidade da indústria de IA mudou em 2026. As empresas não estão mais simplesmente fazendo perguntas aos chatbots; eles estão implantando sistemas de IA que podem navegar em ambientes de software complexos, executar tarefas de codificação em várias etapas e operar com supervisão humana mínima.

Os parceiros de acesso antecipado pintaram a imagem de um modelo que não apenas inicia tarefas, mas também as conclui. Sualeh Asif, cofundador do Cursor, o editor de código baseado em IA que se tornou um termômetro para a adoção de ferramentas para desenvolvedores, disse que "com Claude Sonnet 5, os agentes mantêm o planejamento, seguem nossas convenções e realizam mudanças limpas em várias etapas, tudo a um custo eficiente." Daniel Shepard, engenheiro sênior da Zapier, descreveu a entrega ao modelo de um trabalho de automação em duas partes – atualização dos níveis de conta do Salesforce e envio de um anúncio de lançamento – que "costumava parar no meio do caminho" com modelos anteriores, mas agora completa de ponta a ponta.

Esses depoimentos são importantes porque descrevem exatamente o tipo de lacuna de confiabilidade que tem impedido muitas empresas de migrar a IA de agentes de programas piloto para implantações de produção. Um modelo que percorre 80% de uma tarefa complexa antes de estagnar cria mais problemas do que resolve; aquele que completa de forma confiável todo o fluxo de trabalho muda a economia da automação. A Anthropic também introduziu curvas de custo-desempenho mostrando que os desenvolvedores agora podem ajustar os níveis de esforço no Sonnet 5 e no Opus 4.8 para encontrar o equilíbrio ideal entre custo e precisão para seu caso de uso específico – uma granularidade que reflete a crescente sofisticação na forma como as empresas consomem serviços de IA.

Um tokenizer atualizado aumenta o desempenho do Sonnet 5, mas pode aumentar silenciosamente os custos de algumas cargas de trabalho

Um detalhe técnico enterrado nas notas de rodapé do anúncio merece atenção: o Sonnet 5 usa um tokenizer atualizado que altera a forma como o modelo processa o texto, semelhante à mudança que a Antrópica introduziu com o Opus 4.7.

A desvantagem é que a mesma entrada pode mapear cerca de 1,0 a 1,35 vezes mais tokens, dependendo do tipo de conteúdo. Anthropic diz que o preço introdutório é calibrado para fazer a transição "aproximadamente neutro em termos de custos," mas os clientes corporativos que executam cargas de trabalho de alto volume desejarão avaliar cuidadosamente seus casos de uso específicos antes de presumir que suas contas não mudarão.

Anthropic diz que o Sonnet 5 é mais seguro que seu antecessor, mas seus modelos mais capazes ainda lideram no alinhamento

As divulgações de segurança da Anthropic revelam uma imagem diferenciada. A empresa relata que o Sonnet 5 apresenta taxas mais baixas de alucinação e bajulação do que o Sonnet 4.6, é melhor em recusar solicitações maliciosas e é mais resistente a ataques de injeção imediata em contextos de agente. Na auditoria comportamental automatizada da Anthropic – que testa uma ampla gama de comportamentos desalinhados, incluindo cooperação com uso indevido e engano – o Soneto 5 obteve pontuação geral mais baixa (ou seja, mais seguro) do que o Soneto 4.6.

No entanto, o Soneto 5 mostrou "taxas um pouco mais altas de comportamento desalinhado" em comparação com o Opus 4.8, mais capaz, e o Claude Mythos Preview da Anthropic, o modelo poderoso, mas fortemente restrito, da empresa, focado na segurança cibernética. Em uma avaliação de desenvolvimento de exploit do Firefox 147 criada em colaboração com a Mozilla, nenhum dos modelos do Sonnet conseguiu desenvolver um exploit funcional – ambos pontuaram 0,0% – embora o Sonnet 5 tenha mostrado uma taxa de sucesso parcial ligeiramente maior (13,2%) do que o Sonnet 4.6 (8,8%). Ambos permanecem muito abaixo do Opus 4.8 (68,8% de exploits funcionais) e do Mythos 5 (88,4%).

Devido a esses ganhos incrementais em capacidades cibernéticas adjacentes, a Anthropic lançou o Sonnet 5 com salvaguardas cibernéticas habilitadas por padrão – sistemas em tempo real que detectam e bloqueiam o uso perigoso da segurança cibernética. As salvaguardas refletem as do Opus 4.7 e 4.8, mas são menos restritivas do que as aplicadas ao Fable 5, o último modelo da classe Mythos que a Bloomberg relatou em 10 de junho é "impedidos de responder a perguntas relacionadas à segurança cibernética e à biologia." As organizações inscritas no Programa de Verificação Cibernética da Anthropic recebem automaticamente o mesmo acesso no Sonnet 5 sem necessidade de reaplicação.

De US$ 14 bilhões a US$ 47 bilhões em receita: o Soneto 5 chega enquanto a narrativa do IPO da Anthropic toma forma

O lançamento do Soneto 5 chega naquele que pode ser o momento de maior importância na curta história da Antrópico. A empresa arquivou confidencialmente seu prospecto de IPO junto à SEC no início de junho, estabelecendo o que a CNBC descreveu como "a oferta pública mais examinada da história da tecnologia."

A trajetória financeira tem sido extraordinária. Em fevereiro, a Anthropic levantou US$ 30 bilhões com uma avaliação de US$ 380 bilhões, com a empresa reportando US$ 14 bilhões em receita anualizada que havia "cresceu mais de dez vezes em cada um dos últimos três anos," como relatou o The Guardian.

No final de maio, a Anthropic havia fechado uma rodada da Série H de US$ 65 bilhões com uma avaliação pós-dinheiro de US$ 965 bilhões – co-liderada pela Altimeter Capital, Sequoia Capital e outras – com uma taxa de receita que ultrapassou US$ 47 bilhões. Harrison Rolfes, analista da PitchBook, disse à CNBC que o número que irá "validar ou desmoronar toda a narrativa que os mercados privados vêm precificando há três anos" não será a avaliação ou a receita, mas a margem bruta – um número que nenhum observador externo viu ainda.

Neste contexto, o Soneto 5 serve um duplo propósito. Para os desenvolvedores, oferece melhorias genuínas de capacidade a preços competitivos. Para a narrativa de IPO da Anthropic, isso demonstra que a empresa pode entregar um produto atraente a um nível de preço que poderia gerar o tipo de ampla adoção de recompensas de Wall Street – receitas de API recorrentes e de alto volume de milhares de clientes corporativos.

Acordos governamentais e concorrência crescente definem o mercado em que o Soneto 5 entra

O momento também se alinha com o impulso agressivo da Anthropic em contratos institucionais. Ontem mesmo, o governador da Califórnia, Gavin Newsom, anunciou uma parceria inédita que oferece Claude a todas as agências estaduais com um desconto de 50%, com treinamento gratuito da força de trabalho.

Kate Jensen, Chefe das Américas da Anthropic, chamou isso de um esforço para "colocar Claude para trabalhar para as pessoas que mantêm este estado funcionando." O acordo – que se estende às cidades e condados da Califórnia – representa exatamente o tipo de adoção recorrente e durável que poderia ancorar receitas muito além da comunidade de desenvolvedores.

Mas a liberação do Antrópico chega a um campo cada vez mais lotado. A OpenAI, que levantou uma rodada de US$ 122 bilhões em março com uma avaliação de US$ 852 bilhões, está buscando seu próprio IPO. A SpaceX de Elon Musk, que se fundiu com a xAI, fixou o preço do seu IPO em 135 dólares por ação, com uma avaliação de 1,77 biliões de dólares. Google, Meta e uma onda crescente de concorrentes bem financiados – incluindo startups asiáticas de IA que, como relatou o Wall Street Journal, estão a desenvolver capacidades de cibersegurança semelhantes às do Mythos – estão todos a competir pelo mesmo mercado empresarial.

Gil Luria, chefe de pesquisa tecnológica da DA Davidson, disse à CNBC que embora a Anthropic "parece ter a liderança" em modelos de IA de fronteira, "grande parte de seu uso atual é para testes e experimentações e isso pode não ser sustentável." Essa observação vai ao cerne do desafio enfrentado por todos os laboratórios de IA de ponta: converter o uso experimental do desenvolvedor em receita durável de nível de produção.

O verdadeiro teste para o Soneto 5 não são os benchmarks – é se uma IA mais barata pode sustentar uma história de um trilhão de dólares

O posicionamento do Sonnet 5 – oferecendo desempenho próximo ao do Opus a preços do Sonnet – é uma jogada direta para essa conversão. Os clientes empresariais que experimentam modelos caros da classe Opus podem descobrir que o Sonnet 5 oferece qualidade suficiente para cargas de trabalho de produção a um preço que as equipes financeiras podem aprovar em grande escala. Se funcionar, poderá acelerar a mudança da experimentação para a implantação que toda empresa de IA precisa para justificar a sua avaliação.

Três coisas determinarão se o Soneto 5 é importante além dos gráficos de referência iniciais. A confiabilidade dos agentes no mundo real é a primeira: os benchmarks medem a capacidade, mas as implantações de produção medem a consistência, e o verdadeiro teste virá quando milhares de desenvolvedores empurrarem o modelo através de fluxos de trabalho confusos e imprevisíveis em escala.

A economia do tokenizer é a segunda: a expansão de token de 1,0 a 1,35x do tokenizer atualizado poderia corroer silenciosamente a vantagem de preços para certas cargas de trabalho, e os clientes corporativos devem executar suas próprias análises de custos em vez de confiar nos preços principais por token. A terceira é a própria narrativa do IPO: quando o S-1 da Anthropic eventualmente se tornar público, os investidores examinarão se o nível Sonnet – mais barato, mas de alto volume – ou o nível Opus – caro, mas com margens elevadas – impulsiona a maior parte das receitas e, fundamentalmente, o lucro bruto.

Como disse Rolfes do PitchBook à CNBC, a janela do IPO de 2026 "ou se torna o ciclo de IPO mais importante desde a era pontocom ou a lição mais cara sobre narrativa versus fundamentos que os mercados públicos já ensinaram."

A Anthropic aposta que um modelo suficientemente bom para rivalizar com o seu carro-chefe e barato o suficiente para ser executado em grande escala é o produto que preenche a lacuna entre esses dois resultados. Os mercados públicos decidirão em breve se concordam.

Fonte ==> Cyberseo