O que agradecer na IA em 2025

Edição - Istoé TECH

Olá, queridos leitores. Feliz Dia de Ação de Graças atrasado e Black Friday!

Este ano foi como viver dentro de um DevDay permanente. Toda semana, algum laboratório lança um novo modelo, uma nova estrutura de agente ou uma nova demonstração “isso muda tudo”. É esmagador. Mas também é o primeiro ano em que sinto que a IA está finalmente a diversificar-se – não apenas um ou dois modelos de fronteira na nuvem, mas todo um ecossistema: aberto e fechado, gigante e pequeno, ocidental e chinês, nuvem e local.

Então, para esta edição de Ação de Graças, aqui está o que estou genuinamente grato pela IA em 2025 – os lançamentos que parecem que serão importantes em 12 a 24 meses, não apenas durante o ciclo de campanha publicitária desta semana.

1. OpenAI manteve o envio forte: GPT-5, GPT-5.1, Atlas, Sora 2 e pesos abertos

Como a empresa que inegavelmente deu origem ao "IA generativa" era com seu produto de sucesso viral ChatGPT no final de 2022, a OpenAI provavelmente teve uma das tarefas mais difíceis de qualquer empresa de IA em 2025: continuar sua trajetória de crescimento mesmo quando concorrentes bem financiados como o Google com seus modelos Gemini e outras startups como a Anthropic lançaram suas próprias ofertas altamente competitivas.

Felizmente, a OpenAI aceitou o desafio e muito mais. Seu título principal foi o GPT-5, revelado em agosto como o próximo modelo de raciocínio de fronteira, seguido em novembro pelo GPT-5.1 com novas variantes Instantâneas e de Pensamento que ajustam dinamicamente quanto “tempo de pensamento” eles gastam por tarefa.

Na prática, o lançamento do GPT-5 foi acidentado – VentureBeat documentou falhas iniciais de matemática e codificação e uma reação da comunidade mais fria do que o esperado em “O lançamento do GPT-5 da OpenAI não está indo bem," mas o curso foi rapidamente corrigido com base no feedback do usuário e, como usuário diário deste modelo, estou pessoalmente satisfeito e impressionado com ele.

Ao mesmo tempo, as empresas que realmente utilizam os modelos registam ganhos sólidos. A ZenDesk Global, por exemplo, afirma que os agentes com tecnologia GPT-5 agora resolvem mais da metade dos tickets dos clientes, com alguns clientes obtendo taxas de resolução de 80 a 90%. Essa é a história tranquila: esses modelos nem sempre impressionam as classes tagarelas do X, mas estão começando a movimentar KPIs reais.

No lado das ferramentas, a OpenAI finalmente deu aos desenvolvedores um engenheiro de IA sério com GPT-5.1-Codex-Max, um novo modelo de codificação que pode executar fluxos de trabalho longos e de agente e já é o padrão no ambiente Codex da OpenAI. VentureBeat abordou isso em detalhes em “OpenAI estreia modelo de codificação GPT-5.1-Codex-Max e já concluiu uma tarefa de 24 horas internamente”.

Depois, há o ChatGPT Atlas, um navegador completo com ChatGPT integrado ao próprio Chrome – resumos da barra lateral, análise na página e pesquisa totalmente integrada à navegação normal. É o sinal mais claro de que “assistente” e “navegador” estão em rota de colisão.

No lado da mídia, Sora 2 transformou o vídeo demo original do Sora em um modelo completo de vídeo e áudio com melhor física, som e diálogo sincronizados e mais controle sobre estilo e estrutura de filmagem, além de um aplicativo Sora dedicado com um componente de rede social completo, permitindo que qualquer usuário crie sua própria rede de TV no bolso.

Finalmente – e talvez mais simbolicamente – a OpenAI lançou gpt-oss-120B e gpt-oss-20B, modelos de raciocínio MoE de peso aberto sob uma licença estilo Apache 2.0. O que quer que você pense sobre sua qualidade (e os primeiros usuários de código aberto têm falado alto sobre suas reclamações), esta é a primeira vez desde o GPT-2 que a OpenAI coloca um peso sério nos bens públicos.

2. A onda de código aberto da China se torna popular

Se 2023-24 foi sobre Llama e Mistral, 2025 pertence ao ecossistema de peso aberto da China.

Um estudo do MIT e da Hugging Face descobriu que a China agora lidera ligeiramente os EUA em downloads globais de modelos abertos, em grande parte graças ao DeepSeek e à família Qwen do Alibaba.

Destaques:

DeepSeek-R1 caiu em janeiro como um modelo de raciocínio de código aberto que rivaliza com o o1 da OpenAI, com pesos licenciados pelo MIT e uma família de modelos menores destilados. VentureBeat acompanhou a história desde seu lançamento até seu impacto na segurança cibernética e variantes R1 ajustadas para desempenho.
Kimi K2 Pensando do Moonshot, um modelo de código aberto “pensante” que raciocina passo a passo com ferramentas, muito no molde o1/R1, e está posicionado como o melhor modelo de raciocínio aberto até agora no mundo.
Z.ai enviou GLM-4.5 e GLM-4.5-Air como modelos “agenticos”, base de código aberto e variantes de raciocínio híbrido no GitHub.
Baidu ERNIE 4.5 A família chegou como um conjunto MoE multimodal totalmente de código aberto no Apache 2.0, incluindo um modelo denso de 0,3B e variantes visuais de “pensamento” focadas em gráficos, STEM e uso de ferramentas.
Alibaba Qwen3 linha – incluindo Qwen3-Coder, grandes modelos de raciocínio e a série Qwen3-VL lançada durante os meses de verão e outono de 2025 – continua a estabelecer um padrão elevado para pesos abertos em codificação, tradução e raciocínio multimodal, levando-me a declarar o verão passado como "

O verão de Qwen."

A VentureBeat tem acompanhado essas mudanças, incluindo modelos chineses de matemática e raciocínio como Light-R1-32B e o minúsculo VibeThinker-1.5B do Weibo, que superou as linhas de base do DeepSeek com orçamentos de treinamento apertados.

Se você se preocupa com ecossistemas abertos ou opções locais, este é o ano em que o cenário de peso aberto da China deixou de ser uma curiosidade e se tornou uma alternativa séria.

3. Modelos pequenos e locais crescem

Outra coisa pela qual sou grato: finalmente estamos conseguindo bom modelos pequenos, não apenas brinquedos.

A Liquid AI passou 2025 promovendo suas variantes de linguagem de visão Liquid Foundation Models (LFM2) e LFM2-VL, projetadas desde o primeiro dia para implantações de baixa latência e com reconhecimento de dispositivo – caixas de borda, robôs e servidores restritos, não apenas clusters gigantes. O mais novo LFM2-VL-3B visa robótica embarcada e autonomia industrial, com demonstrações planejadas na ROSCon.

Do lado da grande tecnologia, a linha Gemma 3 do Google apresentou um forte argumento de que “minúsculos” ainda podem ser capazes. Gemma 3 abrange parâmetros de 270M até 27B, todos com pesos abertos e suporte multimodal nas variantes maiores.

O destaque é o Gemma 3 270M, um modelo compacto desenvolvido especificamente para tarefas de ajuste fino e texto estruturado – pense em formatadores, roteadores e watchdogs personalizados – coberto tanto no blog de desenvolvedores do Google quanto nas discussões da comunidade em círculos LLM locais.

Esses modelos podem nunca ser uma tendência no X, mas são exatamente o que você precisa para cargas de trabalho sensíveis à privacidade, fluxos de trabalho off-line, dispositivos thin client e “enxames de agentes” onde você não quer que cada chamada de ferramenta atinja uma fronteira gigante de LLM.

4. Meta + Midjourney: estética como serviço

Uma das reviravoltas mais estranhas deste ano: Meta fez parceria com Midjourney em vez de simplesmente tentar vencê-la.

Em agosto, a Meta anunciou um acordo para licenciar a “tecnologia estética” da Midjourney – sua pilha de geração de imagens e vídeos – e integrá-la aos futuros modelos e produtos da Meta, desde feeds do Facebook e Instagram até recursos da Meta AI.

VentureBeat cobriu a parceria em “Meta está fazendo parceria com Midjourney e licenciará sua tecnologia para modelos e produtos futuros”, levantando a questão óbvia: isso retarda ou remodela o roteiro de API da própria Midjourney? Ainda estou aguardando uma resposta, mas infelizmente, os planos declarados para o lançamento de uma API ainda não se concretizaram, sugerindo que sim.

Para criadores e marcas, porém, a implicação imediata é simples: recursos visuais de nível médio começam a aparecer nas principais ferramentas sociais, em vez de serem trancados em um bot Discord. Isso poderia normalizar a arte de IA de maior qualidade para um público muito mais amplo – e forçar rivais como OpenAI, Google e Black Forest Labs a continuarem elevando o nível.

5. Gemini 3 e Nano Banana Pro do Google

O Google tentou responder ao GPT-5 com o Gemini 3, anunciado como seu modelo mais capaz até agora, com melhor raciocínio, codificação e compreensão multimodal, além de um novo modo Deep Think para problemas lentos e difíceis.

A cobertura da VentureBeat, “Google revela Gemini 3 reivindicando a liderança em matemática, ciências, IA multimodal e de agente”, enquadrou-o como um tiro direto em benchmarks de fronteira e fluxos de trabalho de agente.

Mas o sucesso surpresa é o Nano Banana Pro (Gemini 3 Pro Image), o novo gerador de imagens carro-chefe do Google. É especializado em infográficos, diagramas, cenas com vários assuntos e texto multilíngue que é renderizado de forma legível em resoluções de 2K e 4K.

No mundo da IA empresarial – onde gráficos, esquemas de produtos e imagens para “explicar este sistema visualmente” são mais importantes do que dragões de fantasia – isso é um grande negócio.

6. Curingas que estou de olho

Mais alguns lançamentos pelos quais sou grato, mesmo que eles não caibam perfeitamente em um balde:

Fluxo dos Laboratórios da Floresta Negra.2 image models, lançados no início desta semana com ambições de desafiar tanto o Nano Banana Pro quanto o Midjourney em qualidade e controle. VentureBeat investigou os detalhes em “Black Forest Labs lança modelos de imagem Flux.2 AI para desafiar Nano Banana Pro e Midjourney."
Claude Opus 4.5 da Antrópicoum novo carro-chefe que visa codificação mais barata e mais capaz e execução de tarefas em longo horizonte, abordado em “Claude Opus 4.5 da Antrópico está aqui: IA mais barata, bate-papos infinitos e habilidades de codificação que superam os humanos."
Uma batida constante de modelos abertos de matemática/raciocínio — do Light-R1 ao VibeThinker e outros — que mostram que você não precisa de treinamentos de US$ 100 milhões para mover a agulha.

Último pensamento (por enquanto)

Se 2024 foi o ano de “um grande modelo na nuvem”, 2025 é o ano em que o mapa explodiu: múltiplas fronteiras no topo, a China assumindo a liderança em modelos abertos, sistemas pequenos e eficientes amadurecendo rapidamente e ecossistemas criativos como Midjourney sendo puxados para pilhas de grandes tecnologias.

Estou grato não apenas por qualquer modelo, mas pelo fato de que agora temos opções — fechado e aberto, local e hospedado, primeiro o raciocínio e primeiro a mídia. Para jornalistas, construtores e empresas, essa diversidade é a verdadeira história de 2025.

Boas festas e felicidades para você e seus entes queridos!

Fonte ==> Cyberseo