O Qwen3.7-Max proprietário do Alibaba pode funcionar de forma autônoma por 35 horas e oferece suporte a chicotes externos como o Claude Code da Anthropic

Edição - Istoé TECH

A indústria de IA entrou totalmente no "era do agente," um paradigma em que os modelos de IA fazem muito mais do que gerar texto – eles agora planejam, executam e corrigem ativamente tarefas complexas ao longo de dias, em vez de segundos.

Portanto, talvez não seja surpreendente ver a famosa equipe Qwen de pesquisadores de IA da gigante chinesa de comércio eletrônico Alibaba lançar um modelo capaz de realizar trabalho autônomo de IA agente durante vários dias: esse modelo chegou na forma de Qwen3.7-Max, que a empresa relata em uma postagem de blog alcançada "~35 horas de execução autônoma contínua" – embora em um formato proprietário e não de código aberto, como eram os lançamentos anteriores do Qwen Team.

Isso também era de se esperar – é o que muitos analistas e especialistas do setor temiam após a saída de vários líderes importantes da equipe Qwen no início deste ano. Mas faz sentido financeiramente para o Alibaba, pelo menos a curto prazo: treinar modelos de IA, especialmente aqueles tão poderosos como Qwen3.7-Max, é caro, e distribuí-los essencialmente de graça, como são os modelos de código aberto, não ajuda imediatamente a recuperar quaisquer custos.

Nesse sentido, o Alibaba está simplesmente alinhando seus esforços com gigantes americanos de IA como OpenAI e Google, oferecendo os melhores e mais recentes modelos apenas por meio de APIs pagas e assinaturas ou pacotes de planos pagos da web, e modelos com desempenho ligeiramente inferior por meio de código aberto.

Ainda assim, a chegada do Qwen3.7-Max oferece mais opções para empresas e usuários individuais, e mais concorrência para os laboratórios americanos de IA – raramente algo ruim para consumidores em todos os níveis de orçamento. No entanto, o facto de o modelo só ser acessível a partir de terminais baseados na China significa que o seu apelo pode ser limitado às empresas americanas e europeias que procuram maximizar a conformidade e a postura de segurança ao cumprir contratos governamentais, ou mesmo apenas tentar cumprir todos os regulamentos relevantes de soberania de dados estatais, locais e nacionais.

A era da IA da maratona

Para entender por que o Qwen3.7-Max se diferencia dos modelos anteriores, é preciso observar como ele foi treinado e como funciona na prática.

Os modelos de linguagem normalmente se degradam quando forçados a manter uma única linha de pensamento ao longo de milhares de turnos de conversação; eles esquecem instruções, alucinam variáveis ou simplesmente ficam presos em loops lógicos. Qwen3.7-Max foi projetado especificamente como um "base de agente versátil" capaz de "raciocínio de longo horizonte" para superar esse gargalo exato.

A demonstração mais nítida dessa capacidade é uma tarefa de engenharia autônoma detalhada pela equipe Qwen. O modelo recebeu acesso a um servidor isolado equipado com uma PPU T-Head ZW-M890 – uma arquitetura de hardware que o modelo nunca havia encontrado durante seu treinamento. Sua tarefa era otimizar um núcleo de atenção.

Ao longo de 35 horas seguidas, o Qwen3.7-Max operou de forma totalmente autônoma. Ele executou 1.158 chamadas de ferramentas distintas, realizou 432 avaliações de kernel, diagnosticou falhas de compilação e melhorou iterativamente o código para atingir uma aceleração média geométrica de 10,0x.

Em comparação, os modelos concorrentes chineses, como o GLM-5.1 da z.ai e o Kimi K2.6 da Moonshot, atingiram acelerações de 7,3x e 5,0x, respectivamente, muitas vezes encerrando voluntariamente suas sessões quando não conseguiram progredir. No entanto, ambos estão disponíveis em código aberto.

Esta resistência é alcançada através do que o Alibaba chama "dimensionamento do ambiente". Assim como os primeiros LLMs se tornaram mais inteligentes ao ingerir textos mais diversos, o Qwen3.7-Max foi treinado em uma vasta e escalonada gama de ambientes de agente dinâmicos.

É capaz de simular o ciclo de vida de um ano de uma startup no "Banco YC" avaliação, navegando por centenas de rodadas de tomada de decisão, abrangendo gestão de pessoal e triagem de contratos. Nesta simulação, o modelo conseguiu gerar US$ 2,08 milhões em receita virtual, quase dobrando o desempenho da geração anterior, Qwen3.6-Plus.

Além disso, o modelo possui automonitoramento integrado de hacking de recompensa, detectando autonomamente quando tenta enganar um ambiente de treinamento e adicionando regras heurísticas para corrigir seu próprio comportamento.

Um cérebro para qualquer andaime

Do ponto de vista do produto, o Qwen3.7-Max foi projetado para ser o mecanismo cognitivo para o desenvolvimento de software moderno e automação empresarial.

O modelo oferece uma enorme janela de contexto de 1 milhão de tokens e um limite máximo de saída de 64K, proporcionando imensa sobrecarga para o processamento de bases de código extensas ou documentos técnicos extensos.

Uma de suas características mais atraentes é "generalização cruzada". Em vez de ser codificado para funcionar melhor em uma interface proprietária específica, o Qwen3.7-Max foi desenvolvido para atuar como uma camada de inteligência integrada para diversas estruturas de agentes. Isto suporta o protocolo API Anthropic nativamente, permitindo que os desenvolvedores conecte-o diretamente em ferramentas existentes como Claude Code ou OpenClaw.

Os dados de referência fornecidos pela Alibaba indicam que esta abordagem generalizada rendeu enormes dividendos.

No benchmark Apex Math ReasoningQwen3.7-Max marcou 44,5, superando a pontuação de Claude Opus-4,6 Max de 34,5 e 38.3 do DeepSeek V4-Pro Max. Também postou pontuações dominantes no Último Exame da Humanidade (41,4) e no benchmark de agente de codificação realista MCP-Atlas (76,4).

Isso se traduz em utilidade tangível para os usuários finais. Por meio de integrações do Model Context Protocol (MCP) de código aberto, o modelo pode operar como um assistente de escritório autônomo, capaz de ler especificações de formatação universitária e reformatar automaticamente um documento Word confuso por meio de ferramentas de linha de comando sem intervenção humana.

Administrar esse nível de inteligência tem um custo distinto. Os desenvolvedores que acessam a API por meio do Alibaba Cloud Model Studio pagarão US$ 2,50 por 1 milhão de tokens de entrada e US$ 7,50 por 1 milhão de tokens de saída. A plataforma também oferece criação explícita de cache e preços de leitura, bem como uma taxa de US$ 10 por 1.000 chamadas para pesquisas integradas na web, embora as ferramentas de interpretação de código permaneçam gratuitas por tempo limitado.

Qwen3.7-Max ocupa um meio-termo estratégico na atual economia de APIs. Embora exija um prêmio notável em relação aos rivais domésticos com preços agressivos – custando quase o dobro do DeepSeek V4 Pro (US$ 5,22) e do GLM-5.1 da Z.ai (US$ 5,80) – ele prejudica drasticamente os gigantes da fronteira ocidental que rotineiramente iguala nos benchmarks.

Para fins de contexto, a execução de fluxos de trabalho de agentes pesados por meio do GPT-5.4 da OpenAI ou do Claude Opus 4.7 da Anthropic custará aos desenvolvedores US$ 17,50 e US$ 30,00 por milhão de tokens, respectivamente. Veja a tabela de preços do VentureBeat abaixo:

Instantâneo de preços da API do modelo VentureBeat Frontier AI

Modelo	Entrada	Saída	Custo total	Fonte
Flash MiMo-V2.5	US$ 0,10	US$ 0,30	US$ 0,40	Xiaomi MiMo
MiniMax M2.7	US$ 0,30	US$ 1,20	US$ 1,50	MiniMax
Gêmeos 3.1 Flash-Lite	US$ 0,25	US$ 1,50	US$ 1,75	Google
MiMo V2.5	US$ 0,40	US$ 2,00	US$ 2,40	Xiaomi MiMo
Kimi-K2.6	US$ 0,95	US$ 4,00	US$ 4,95	Moonshot/Kimi
GLM-5	US$ 1,00	US$ 3,20	US$ 4,20	Z.ai
Grok 4.3 (baixo contexto)	US$ 1,25	US$ 2,50	US$ 3,75	xAI
DeepSeek V4 Pro	US$ 1,74	US$ 3,48	US$ 5,22	DeepSeek
GLM-5.1	US$ 1,40	US$ 4,40	US$ 5,80	Z.ai
Claude Haiku 4.5	US$ 1,00	US$ 5,00	US$ 6,00	Antrópico
Grok 4.3 (alto contexto)	US$ 2,50	US$ 5,00	US$ 7,50	xAI
Qwen3.7-Máx.	US$ 2,50	US$ 7,50	US$ 10,00	Nuvem Alibaba
Gêmeos 3.5 Flash	US$ 1,50	US$ 9,00	US$ 10,50	Google
Pré-visualização do Gemini 3.1 Pro (≤200K)	US$ 2,00	US$ 12,00	US$ 14,00	Google
GPT-5.4	US$ 2,50	US$ 15,00	US$ 17,50	OpenAI
Pré-visualização do Gemini 3.1 Pro (>200K)	US$ 4,00	US$ 18,00	US$ 22,00	Google
Fechar Trabalho 4.7	US$ 5,00	US$ 25,00	US$ 30,00	Antrópico
GPT-5.5	US$ 5,00	US$ 30,00	US$ 35,00	OpenAI

Ao posicionar o Qwen3.7-Max logo abaixo do Gemini 3.5 Flash do Google (US$ 10,50), mas bem acima dos modelos de orçamento, o Alibaba está sinalizando que este não é um lançamento de commodity; é um mecanismo de raciocínio carro-chefe com preço para atrair cargas de trabalho empresariais das ofertas mais caras do Vale do Silício.

O licenciamento permanece proprietário por enquanto

Apesar de todo o seu brilhantismo técnico, o aspecto mais controverso do Qwen3.7-Max é como ele é distribuído. Qwen está cobrando o lançamento como um "modelo proprietário". É estritamente apenas API.

Historicamente, Qwen do Alibaba tem sido um herói para as comunidades LLM locais e de código aberto. Iterações anteriores, como Qwen 2.5 e Qwen 3.6, divulgaram seus pesos publicamente. Os pesos abertos permitem que desenvolvedores, pesquisadores e empresas baixem o modelo, executem-no em seu próprio hardware e ajustem-no para casos de uso altamente específicos ou sensíveis a dados, sem enviar informações proprietárias a um servidor de terceiros.

Ao bloquear o Qwen3.7-Max por trás de uma API, o Alibaba está se voltando para o manual comercial padrão utilizado pela OpenAI (com GPT-4) e Anthropic (com Claude). Para usuários corporativos, isso significa que a utilização do Qwen3.7-Max exige confiar no Alibaba Cloud com seus fluxos de dados e depender inteiramente da conectividade com a Internet para executar seus fluxos de trabalho de agente. Para a comunidade de código aberto, significa perder o acesso ao que é atualmente um dos modelos mais capazes do planeta.

As reações da comunidade dividem-se entre admiração e decepção

A reação da comunidade de desenvolvedores foi rápida, caracterizada por uma mistura de profundo respeito pelas conquistas da engenharia e frustração com o modelo de licenciamento.

O proeminente comentarista de IA Sudo su (@sudoingX) capturou o sentimento predominante no X (antigo Twitter). "qwen é irreal," eles escreveram. "eles caíram 3,7 no máximo e estão superando o opus 4,6 no máximo na maioria dos benchmarks que executaram".

As métricas técnicas, especialmente a resistência do modelo, deixaram muitos no campo atordoados. "o número matemático máximo, 44,5 contra o opus 34,5, que não é uma pequena lacuna," Sudo su anotado. "as 35 horas seguidas em uma tarefa de otimização do kernel com mais de 1.000 chamadas de ferramentas é a parte que continuo relendo. essa é a coisa da era do agente realmente acontecendo, não um slide".

A velocidade da iteração do Alibaba também chama a atenção. Com o Qwen 3.6 lançado no mês passado, o salto para o 3.7-Max destaca uma cadência de desenvolvimento implacável. Como Sudo su observou, "ninguém mais está se movendo assim".

No entanto, o elogio é fortemente prejudicado pela mudança para um ecossistema fechado. A perda dos pesos dos modelos é vista como um golpe para o movimento de IA localizada, que depende de modelos abertos de última geração para ultrapassar os limites do que pode ser feito em hardware de consumo ou em clusters de empresas privadas.

"uma coisa, por favor, abra o código deste também," Sudo su implorou em seu post. "3,6 denso tornou todo o ecossistema local do filme melhor. a API de nível máximo fecharia apenas uma porta que mantivemos aberta. dê-nos os pesos eventualmente".

Qwen3.7-Max prova que a era do agente autônomo não é mais uma projeção teórica; é uma realidade atual capaz de executar proezas complexas de engenharia enquanto os humanos dormem. A única questão agora é se esta nova fronteira da IA será um recurso democratizado que você pode baixar para o seu laptop ou um utilitário de inteligência alugado estritamente da nuvem. Por enquanto, com Qwen3.7-Max, é inegavelmente o último.

Fonte ==> Cyberseo