O Alibaba lançou o Qwen3.5 no início desta semana, programado para coincidir com o Ano Novo Lunar, e os números das manchetes por si só são suficientes para fazer os compradores empresariais de IA pararem e prestarem atenção.
O novo modelo carro-chefe de peso aberto – Qwen3.5-397B-A17B – contém 397 bilhões de parâmetros totais, mas ativa apenas 17 bilhões por token. Ela está reivindicando vitórias em benchmarks contra o carro-chefe anterior do Alibaba, o Qwen3-Max, um modelo que a própria empresa reconheceu ter ultrapassado um trilhão de parâmetros.
O lançamento marca um momento significativo na aquisição de IA empresarial. Para os líderes de TI que avaliam a infraestrutura de IA para 2026, o Qwen 3.5 apresenta um tipo diferente de argumento: que o modelo que você pode realmente executar, possuir e controlar pode agora trocar golpes com os modelos que você precisa alugar.
Uma nova arquitetura construída para velocidade em escala
A história da engenharia por trás do Qwen3.5 começa com sua ancestralidade. O modelo é um sucessor direto do Qwen3-Next experimental de setembro passado, um modelo MoE ultra-esparso que foi previsto, mas amplamente considerado como meio treinado. O Qwen3.5 segue essa direção arquitetônica e a dimensiona agressivamente, saltando de 128 especialistas nos modelos Qwen3 MoE anteriores para 512 especialistas na nova versão.
A implicação prática disso e de um melhor mecanismo de atenção é uma latência de inferência drasticamente menor. Como apenas 17 bilhões desses 397 bilhões de parâmetros estão ativos para qualquer passagem de avanço, a pegada computacional está muito mais próxima de um modelo denso de 17B do que de um modelo de 400B – enquanto o modelo pode aproveitar toda a profundidade de seu conjunto de especialistas para raciocínio especializado.
Esses ganhos de velocidade são substanciais. Em comprimentos de contexto de 256K, o Qwen 3.5 decodifica 19 vezes mais rápido que o Qwen3-Max e 7,2 vezes mais rápido que o modelo 235B-A22B do Qwen 3.
A Alibaba também afirma que o modelo é 60% mais barato de operar do que seu antecessor e oito vezes mais capaz de lidar com grandes cargas de trabalho simultâneas, números que são extremamente importantes para qualquer equipe que preste atenção às contas de inferência. Também é cerca de 1/18º custo do Gemini 3 Pro do Google.
Duas outras decisões arquitetônicas complementam esses ganhos:
-
Qwen3.5 adota previsão de vários tokens — uma abordagem pioneira em vários modelos proprietários — que acelera a convergência pré-treinamento e aumenta o rendimento.
-
Também herda o sistema de atenção de Qwen3-Próximo lançado no ano passado, projetado especificamente para reduzir a pressão de memória em contextos muito longos.
O resultado é um modelo que pode operar confortavelmente dentro de uma janela de contexto de 256K na versão aberta e até 1 milhão de tokens na variante Qwen3.5-Plus hospedada no Alibaba Cloud Model Studio.
Multimodal nativo, não aparafusado
Durante anos, o Alibaba adotou a abordagem padrão da indústria: construir um modelo de linguagem e, em seguida, anexar um codificador de visão para criar uma variante de VL separada. Qwen3.5 abandona totalmente esse padrão. O modelo é treinado do zero em texto, imagens e vídeo simultaneamente, o que significa que o raciocínio visual é integrado às representações centrais do modelo, em vez de enxertado.
Isso é importante na prática. Os modelos nativamente multimodais tendem a superar seus equivalentes baseados em adaptadores em tarefas que exigem um raciocínio rígido de texto-imagem – pense na análise de um diagrama técnico junto com sua documentação, no processamento de capturas de tela da interface do usuário para tarefas de agente ou na extração de dados estruturados de layouts visuais complexos. No MathVista, o modelo pontua 90,3; no MMMU, 85,0. Ele está atrás do Gemini 3 em vários benchmarks específicos de visão, mas supera Claude Opus 4.5 em tarefas multimodais e apresenta números competitivos em relação ao GPT-5.2, tudo isso enquanto carrega uma fração da contagem de parâmetros.
O desempenho de referência do Qwen3.5 em relação a modelos proprietários maiores é o número que impulsionará as conversas empresariais.
Nas avaliações publicadas pelo Alibaba, o modelo 397B-A17B supera o Qwen3-Max – um modelo com mais de um trilhão de parâmetros – em múltiplas tarefas de raciocínio e codificação.
Ele também afirma resultados competitivos em relação ao GPT-5.2, Claude Opus 4.5 e Gemini 3 Pro em raciocínio geral e benchmarks de codificação.
Cobertura de idiomas e eficiência do tokenizador
Um detalhe subestimado na versão Qwen3.5 é seu alcance multilíngue expandido. O vocabulário do modelo cresceu para 250 mil tokens, acima dos 150 mil das gerações anteriores do Qwen e agora comparável ao tokenizer de aproximadamente 256 mil do Google. O suporte a idiomas expande de 119 idiomas no Qwen 3 para 201 idiomas e dialetos.
A atualização do tokenizer tem implicações diretas de custos para implantações globais. Vocabulários maiores codificam escritas não latinas — árabe, tailandês, coreano, japonês, hindi e outros — com mais eficiência, reduzindo a contagem de tokens em 15 a 40%, dependendo do idioma. Para organizações de TI que executam IA em escala em bases de usuários multilíngues, este não é um detalhe acadêmico. Isso se traduz diretamente em custos de inferência mais baixos e tempos de resposta mais rápidos.
Capacidades Agentic e integração OpenClaw
O Alibaba está posicionando o Qwen3.5 explicitamente como um modelo de agência – projetado não apenas para responder a consultas, mas para realizar ações autônomas em várias etapas em nome de usuários e sistemas. A empresa possui código aberto Qwen Code, uma interface de linha de comando que permite aos desenvolvedores delegar tarefas complexas de codificação ao modelo em linguagem natural, aproximadamente análogo ao Claude Code da Anthropic.
O lançamento também destaca a compatibilidade com OpenClaw, a estrutura de agente de código aberto que cresceu na adoção de desenvolvedores este ano. Com 15.000 ambientes distintos de treinamento de aprendizagem por reforço usados para aprimorar o raciocínio do modelo e a execução de tarefas, a equipe Qwen fez uma aposta deliberada no treinamento baseado em RL para melhorar o desempenho prático do agente – uma tendência consistente com o que MiniMax demonstrou com M2.5.
A variante hospedada Qwen3.5-Plus também permite modos de inferência adaptativos: um modo rápido para aplicativos sensíveis à latência, um modo de pensamento que permite raciocínio de cadeia de pensamento estendida para tarefas complexas e um modo automático (adaptativo) que seleciona dinamicamente. Essa flexibilidade é importante para implantações empresariais onde o mesmo modelo pode precisar atender tanto interações com clientes em tempo real quanto fluxos de trabalho analíticos profundos.
Realidades de implantação: o que as equipes de TI realmente precisam saber
Executar os pesos abertos do Qwen3.5 internamente requer hardware sério. Enquanto uma versão quantizada exige aproximadamente 256 GB de RAM e, realisticamente, 512 GB para um espaço confortável. Este não é um modelo para uma estação de trabalho ou um modesto servidor local. Ele é adequado para um nó de GPU — uma configuração que muitas empresas já operam para cargas de trabalho de inferência e que agora oferece uma alternativa atraente para implantações dependentes de API.
Todos os modelos Qwen 3.5 de peso aberto são lançados sob a licença Apache 2.0. Esta é uma distinção significativa dos modelos com licenças personalizadas ou restritas: o Apache 2.0 permite uso comercial, modificação e redistribuição sem royalties, sem restrições significativas. Para as equipes jurídicas e de compras que avaliam modelos abertos, essa postura limpa de licenciamento simplifica consideravelmente a conversa.
O que vem a seguir
Alibaba confirmou que este é o primeiro lançamento da família Qwen3.5, e não o lançamento completo. Com base no padrão do Qwen3 – que apresentava modelos com até 600 milhões de parâmetros – a indústria espera que modelos destilados densos menores e configurações adicionais de MoE sigam nas próximas semanas e meses. O modelo Qwen3-Next 80B de setembro passado foi amplamente considerado subtreinado, sugerindo que uma variante 3,5 nessa escala é um provável lançamento no curto prazo.
Para os tomadores de decisão de TI, a trajetória é clara. O Alibaba demonstrou que os modelos de peso aberto na fronteira não são mais um compromisso. Qwen3.5 é uma opção de aquisição genuína para equipes que desejam raciocínio de primeira linha, recursos multimodais nativos e uma janela de contexto de token de 1 milhão — sem se prender a uma API proprietária. A próxima questão não é se esta família de modelos é suficientemente capaz. É se sua infraestrutura e equipe estão prontas para tirar vantagem disso.
Qwen 3.5 é disponível agora no Hugging Face sob o ID do modelo Qwen/Qwen3.5-397B-A17B. A variante hospedada Qwen3.5-Plus está disponível via Estúdio de modelo de nuvem Alibaba. Qwen Bate-papo em chat.qwen.ai oferece acesso público gratuito para avaliação.
Fonte ==> Cyberseo