Baidu revela o ERNIE 5 proprietário que supera o desempenho do GPT-5 em gráficos, compreensão de documentos e muito mais

Edição - Istoé TECH

Poucas horas depois que a OpenAI atualizou seu principal modelo de base GPT-5 para GPT-5.1, prometendo redução geral do uso de tokens e uma personalidade mais agradável com mais opções predefinidas, o gigante de buscas chinês Baidu revelou seu modelo de base de próxima geração, ERNIE 5.0, junto com um conjunto de atualizações de produtos de IA e expansões internacionais estratégicas.

O objetivo: posicionar-se como um concorrente global no mercado cada vez mais competitivo de IA empresarial.

Anunciado no evento Baidu World 2025 da empresa, o ERNIE 5.0 é um modelo proprietário, nativamente omnimodal, projetado para processar e gerar em conjunto conteúdo em texto, imagens, áudio e vídeo.

Ao contrário do ERNIE-4.5-VL-28B-A3B-Thinking lançado recentemente pelo Baidu, que é de código aberto sob uma licença Apache 2.0 permissiva e amigável para empresas, o ERNIE 5.0 é um modelo proprietário e está disponível apenas no site ERNIE Bot do Baidu (eu precisava selecioná-lo manualmente no menu suspenso do seletor de modelo) e na interface de programação de aplicativos (API) da plataforma de nuvem Qianfan para clientes corporativos.

Juntamente com o lançamento do modelo, o Baidu introduziu atualizações importantes em sua plataforma humana digital, ferramentas sem código e agentes de IA de uso geral – todos direcionados à expansão de sua presença de IA além da China.

A empresa também introduziu o ERNIE 5.0 Preview 1022, uma variante otimizada para tarefas com uso intensivo de texto, juntamente com o modelo de visualização geral que equilibra todas as modalidades.

A Baidu enfatizou que o ERNIE 5.0 representa uma mudança na forma como a inteligência é implantada em escala, com o CEO Robin Li afirmando: “Quando você internaliza a IA, ela se torna uma capacidade nativa e transforma a inteligência de um custo em uma fonte de produtividade”.

Onde ERNIE 5.0 supera GPT-5 e Gemini 2.5 Pro

Os resultados do benchmark ERNIE 5.0 sugerem que o Baidu alcançou paridade – ou quase paridade – com os principais modelos de fundações ocidentais num amplo espectro de tarefas.

Em slides de benchmark públicos compartilhados durante o evento Baidu World 2025, o ERNIE 5.0 Preview superou ou igualou o GPT-5-High da OpenAI e o Gemini 2.5 Pro do Google em raciocínio multimodal, compreensão de documentos e controle de qualidade baseado em imagensenquanto também demonstrando fortes habilidades de modelagem de linguagem e execução de código.

A empresa enfatizou a sua capacidade de lidar com entradas e saídas conjuntas entre modalidades, em vez de confiar na fusão post-hoc de modalidades, que enquadrou como um diferenciador técnico.

Em tarefas visuais, o ERNIE 5.0 obteve pontuações líderes no OCRBench, DocVQA e ChartQA, três benchmarks que testam o reconhecimento, a compreensão e o raciocínio de dados estruturados de documentos.

O Baidu afirma que o modelo superou o GPT-5-High e o Gemini 2.5 Pro nesses benchmarks baseados em documentos e gráficos, áreas que descreve como essenciais para aplicativos empresariais, como processamento automatizado de documentos e análise financeira.

Na geração de imagens, o ERNIE 5.0 empatou ou superou o Veo3 do Google em todas as categorias, incluindo alinhamento semântico e qualidade de imagem, de acordo com a avaliação interna do Baidu baseada no GenEval. O Baidu afirmou que a integração multimodal do modelo permite gerar e interpretar conteúdo visual com maior consciência contextual do que modelos que dependem de codificadores específicos de modalidade.

Para tarefas de áudio e fala, o ERNIE 5.0 demonstrou resultados competitivos nos benchmarks de compreensão de áudio MM-AU e TUT2017, bem como resposta a perguntas a partir de entradas de linguagem falada. Seu desempenho de áudio, embora não tão enfatizado quanto a visão ou o texto, sugere uma ampla capacidade de cobertura destinada a suportar aplicações multimodais de espectro total.

Em tarefas linguísticas, o modelo mostrou resultados sólidos no seguimento de instruções, resposta a perguntas factuais e raciocínio matemático – áreas centrais que definem a utilidade empresarial de grandes modelos de linguagem.

A variante Preview 1022 do ERNIE 5.0, adaptada para desempenho textual, mostrou resultados específicos de linguagem ainda mais fortes no acesso antecipado do desenvolvedor. Embora o Baidu não reivindique ampla superioridade no raciocínio linguístico geral, as suas avaliações internas sugerem que o ERNIE 5.0 Preview 1022 preenche a lacuna com os modelos de língua inglesa de primeira linha e os supera no desempenho da língua chinesa.

Embora a Baidu não tenha divulgado publicamente detalhes completos de benchmark ou pontuações brutas, o seu posicionamento de desempenho sugere uma tentativa deliberada de enquadrar o ERNIE 5.0 não como um sistema multimodal de nicho, mas como um modelo emblemático competitivo com os maiores modelos fechados no raciocínio de uso geral.

Onde o Baidu afirma que uma liderança clara está na compreensão estruturada de documentos, no raciocínio de gráficos visuais e na integração de múltiplas modalidades em uma arquitetura de modelagem única e nativa. A verificação independente destes resultados permanece pendente, mas a amplitude das capacidades reivindicadas posiciona o ERNIE 5.0 como uma alternativa séria no cenário do modelo de fundação multimodal.

Estratégia de preços empresariais

ERNIE 5.0 está posicionado no final premium da estrutura de preços do modelo do Baidu. A empresa divulgou preços específicos para uso de API em sua plataforma Qianfan, alinhando o custo com outras ofertas de primeira linha de concorrentes chineses como o Alibaba.

Modelo	Custo de entrada (por 1 mil tokens)	Custo de saída (por 1 mil tokens)	Fonte
ERNIE 5.0	US$ 0,00085 (¥ 0,006)	US$ 0,0034 (¥ 0,024)	Qian Fan
ERNIE 4.5 Turbo (ex.)	US$ 0,00011 (¥ 0,0008)	US$ 0,00045 (¥ 0,0032)	Qian Fan
Qwen3 (codificador ex.)	US$ 0,00085 (¥ 0,006)	US$ 0,0034 (¥ 0,024)	Qian Fan

O contraste de custo entre o ERNIE 5.0 e modelos anteriores, como o ERNIE 4.5 Turbo, sublinha a estratégia da Baidu para diferenciar entre modelos de alto volume e baixo custo e modelos de alta capacidade projetados para tarefas complexas e raciocínio multimodal.

Em comparação com outras alternativas dos EUA, permanece na faixa intermediária de preços:

Modelo	Entrada (/1 milhão de tokens)	Saída (/1 milhão de tokens)	Fonte
GPT-5.1	US$ 1,25	US$ 10,00	OpenAI
ERNIE 5.0	US$ 0,85	US$ 3,40	Qian Fan
ERNIE 4.5 Turbo (ex.)	US$ 0,11	US$ 0,45	Qian Fan
Fechar Trabalho 4.1	US$ 15,00	US$ 75,00	Antrópico
Gêmeos 2.5 Pró	US$ 1,25 (≤200 mil) / US$ 2,50 (>200 mil)	US$ 10,00 (≤200 mil) / US$ 15,00 (>200 mil)	Preços do Google Vertex AI
Grok 4 (grok-4-0709)	US$ 3,00	US$ 15,00	API xAI

Expansão Global: Produtos e Plataformas

Junto com o lançamento do modelo, o Baidu está se expandindo internacionalmente:

GenFlow 3.0agora com mais de 20 milhões de usuários, é o maior agente de IA de uso geral da empresa e apresenta memória aprimorada e manipulação de tarefas multimodais.
Famosoum agente autoevolutivo capaz de resolver problemas complexos de forma dinâmica, agora está disponível comercialmente por meio de convite.
MeDoa versão internacional do construtor sem código Miaoda do Baidu, está disponível globalmente via medo.dev.
Oreateum espaço de trabalho de produtividade com suporte para documentos, slides, imagens, vídeos e podcasts, alcançou mais de 1,2 milhão de usuários em todo o mundo.

A plataforma digital humana do Baidu, já lançada no Brasil, também faz parte do impulso global. De acordo com dados da empresa, 83% dos livestreamers durante o evento de compras “Double 11” deste ano na China usaram a tecnologia humana digital do Baidu, contribuindo para um aumento de 91% no GMV.

Enquanto isso, o serviço autônomo de carona da Baidu, Apollo Go, ultrapassou 17 milhões de viagens, operando frotas sem motorista em 22 cidades e reivindicando o título de maior rede de robotáxis do mundo.

Modelo de linguagem de visão de código aberto atrai a atenção da indústria

Dois dias antes do principal evento ERNIE 5.0, o Baidu também lançou um modelo multimodal de código aberto sob a licença Apache 2.0: ERNIE-4.5-VL-28B-A3B-Thinking.

Conforme relatado pelo meu colega Michael Nuñez da VentureBeat, o modelo ativa apenas 3 bilhões de parâmetros, mantendo um total de 28 bilhões, usando uma arquitetura Mixture-of-Experts (MoE) para inferência eficiente.

As principais inovações técnicas incluem:

“Thinking with Images”, que permite análise visual dinâmica baseada em zoom
Suporte para interpretação de gráficos, compreensão de documentos, fundamentação visual e consciência temporal em vídeo
Tempo de execução em uma única GPU de 80 GB, tornando-o acessível para organizações de médio porte
Compatibilidade total com Transformers, vLLM e kits de ferramentas FastDeploy do Baidu

Este lançamento aumenta a pressão sobre os concorrentes de código fechado. Com o licenciamento Apache 2.0, o ERNIE-4.5-VL-28B-A3B-Thinking se torna um modelo de base viável para aplicações comerciais sem restrições de licenciamento – algo que poucos modelos de alto desempenho nesta classe oferecem.

Feedback da comunidade e resposta do Baidu

Após o lançamento do ERNIE 5.0, o desenvolvedor e avaliador de IA Lisan al Gaib (@scaling01) postou uma análise mista sobre o X. Embora inicialmente impressionado com o desempenho de benchmark do modelo, eles relataram um problema persistente em que o ERNIE 5.0 invocava ferramentas repetidamente – mesmo quando explicitamente instruído a não fazê-lo – durante tarefas de geração de SVG.

“Os benchmarks do ERNIE 5.0 pareciam insanos até que eu o testei… infelizmente, o RL está com danos cerebrais ou eles têm um problema sério com a plataforma de bate-papo/prompt do sistema”, escreveu Lisan.

Em questão de horas, a conta de suporte focada no desenvolvedor do Baidu, @ErnieforDevs, respondeu:

“Obrigado pelo feedback! É um bug conhecido — certa sintaxe pode acioná-lo de forma consistente. Estamos trabalhando em uma correção. Você pode tentar reformular ou alterar o prompt para evitá-lo por enquanto.”

A rápida recuperação reflete a crescente ênfase do Baidu na comunicação entre desenvolvedores, especialmente porque corteja usuários internacionais por meio de ofertas proprietárias e de código aberto.

Perspectivas para o Baidu e sua família LLM fundamental ERNIE

O ERNIE 5.0 do Baidu marca uma escalada estratégica na corrida global do modelo de fundação. Com reivindicações de desempenho que o colocam ao nível dos sistemas mais avançados da OpenAI e do Google, e uma combinação de preços premium e alternativas de acesso aberto, o Baidu está a sinalizar a sua ambição de se tornar não apenas um líder doméstico em IA, mas um fornecedor de infraestrutura global credível.

Numa época em que os usuários corporativos de IA exigem cada vez mais desempenho multimodal, licenciamento flexível e eficiência de implantação, a abordagem dupla do Baidu – APIs hospedadas premium e lançamentos de código aberto – pode ampliar seu apelo às comunidades corporativas e de desenvolvedores.

Ainda não se sabe se as afirmações de desempenho da empresa se sustentam em testes de terceiros. Mas num cenário moldado pelo aumento dos custos, pela complexidade dos modelos e pelos estrangulamentos computacionais, o ERNIE 5.0 e o seu ecossistema de apoio dão à Baidu uma posição competitiva na próxima vaga de implementação de IA.

Fonte ==> Cyberseo