AI IQ está aqui: um novo site pontua modelos de IA de ponta na escala de QI humano. Os resultados já estão dividindo a tecnologia.

Edição - Istoé TECH

Durante décadas, o teste de QI tem sido um dos parâmetros mais familiares – e mais contestados – da inteligência humana. Agora, um projeto de startup chamado AI IQ está aplicando a mesma metáfora à inteligência artificial, atribuindo quocientes de inteligência estimados a mais de 50 dos modelos de linguagem mais poderosos do mundo e plotando-os em uma curva padrão.

O resultado é um conjunto de visualizações interativas no aiiq.org que ricochetearam nas redes sociais na semana passada, atraindo elogios de tecnólogos empresariais que dizem que os gráficos tornam legível um mercado incrivelmente complexo – e críticas duras de pesquisadores e comentaristas que alertam que toda a estrutura é enganosa.

"Isso é muito útil," escreveu Thibaut Mélen, comentarista de tecnologia, no X. "É muito mais fácil entender o progresso do modelo quando ele é mapeado dessa forma, em vez de outra tabela gigante de classificação."

Brian Vellmure, estrategista de negócios, ofereceu um endosso semelhante: "Isso é útil. Acompanha anedóticamente a experiência pessoal."

Mas a reação chegou com a mesma rapidez. "É um absurdo. A IA é muito irregular. O mapa não é o território," postou AI Deeply, um relato de comentários sobre inteligência artificial, cristalizando uma preocupação compartilhada por muitos pesquisadores: que reduzir as capacidades desiguais e extensas de um modelo de linguagem a um único número cria uma perigosa ilusão de precisão.

Doze benchmarks, quatro dimensões e um número controverso: como o AI IQ realmente funciona

AI IQ foi criado por Ryan Shea, engenheiro, empresário e investidor anjo mais conhecido como cofundador da plataforma blockchain Stacks. Shea também foi cofundador da Voterbase e investiu nos estágios iniciais de vários unicórnios, incluindo OpenSea, Lattice, Anchorage e Mercury. Ele é bacharel em Engenharia Mecânica pela Universidade de Princeton.

A metodologia do site baseia-se numa fórmula aparentemente simples. O AI IQ agrupa 12 benchmarks em quatro dimensões de raciocínio: abstrata, matemática, programática e acadêmica. O QI composto é uma média direta dessas pontuações de quatro dimensões: QI = ¼ (IQ_Abstract + IQ_Math + IQ_Prog + IQ_Acad).

A dimensão do raciocínio abstrato baseia-se no ARC-AGI-1 e no ARC-AGI-2, os benchmarks de reconhecimento de padrões notoriamente difíceis, projetados para testar a inteligência fluida geral. O raciocínio matemático inclui FrontierMath (Níveis 1–3 e Nível 4), AIME e ProofBench. O raciocínio programático usa Terminal-Bench 2.0, SWE-Bench Verified e SciCode. O raciocínio acadêmico baseia-se no Último Exame da Humanidade, CritPt e GPQA Diamond.

Cada pontuação bruta de benchmark é mapeada para um QI implícito por meio do que o site descreve como "curvas de dificuldade calibradas manualmente." Crucialmente, a metodologia comprime os limites máximos para os índices de referência considerados mais fáceis ou mais suscetíveis à contaminação de dados, impedindo-os de inflacionar pontuações acima de 100. Os índices de referência mais difíceis e menos jogáveis mantêm limites máximos mais elevados. O sistema também trata os dados em falta de forma conservadora: os modelos precisam de pontuações em pelo menos duas das quatro dimensões para receber um QI derivado e, quando os parâmetros de referência estão ausentes, o pipeline reduz deliberadamente as pontuações em vez de as aumentar. O site afirma que "cada QI derivado calcula a média de todas as quatro dimensões, portanto, a falta de cobertura não pode fazer um modelo parecer melhor por omissão."

OpenAI lidera a curva do sino, mas a diferença entre os principais modelos de IA nunca foi tão pequena

Em meados de maio de 2026, os gráficos de QI da IA contam uma história de rápida convergência no topo da fronteira — e de aumento da diversidade nos níveis abaixo.

De acordo com o gráfico Frontier IQ Over Time, o GPT-5.5 da OpenAI atualmente está no pico da curva em forma de sino, com um QI estimado próximo a 136 – o mais alto de qualquer modelo rastreado. É seguido de perto por GPT-5.4 (aproximadamente 131), Opus 4.7 da Anthropic (aproximadamente 132) e Opus 4.6 (aproximadamente 129). O Gemini 3.1 Pro do Google chega perto de 131, tornando o cluster superior extraordinariamente compacto.

Essa compressão não é exclusiva da estrutura do AI IQ. Visual Capitalist, baseado em uma classificação separada baseada em Mensa da TrackingAI, observou recentemente a mesma dinâmica, observando que "a maior conclusão é o quão comprimido o topo da tabela de classificação se tornou." Nessa escala, Grok-4.20 Expert Mode e GPT 5.4 Pro empataram em 145, com Gemini 3.1 Pro em 141.

Abaixo do cluster fronteiriço, os gráficos do AI IQ mostram um meio-campo lotado. Modelos de laboratórios chineses – Kimi K2.6, GLM-5, DeepSeek-V3.2, Qwen3.6, MiniMax-M2.7 – agrupam-se entre aproximadamente 112 e 118, tornando o nível de custo-desempenho cada vez mais competitivo para compradores empresariais que não precisam do melhor modelo absoluto para cada tarefa. Um usuário X, ovsky, observou que os dados "confirma a experiência com o soneto 4.6 sendo um burro de carga absoluto, em oposição ao opus 4.5" – apontando para a forma como os gráficos podem validar as intuições dos profissionais que as classificações das manchetes muitas vezes ignoram.

Por que as pontuações de inteligência emocional estão se tornando o novo campo de batalha nas classificações de modelos de IA

O que distingue o AI IQ da maioria dos outros esforços de benchmarking é a inclusão de um "equalização" — inteligência emocional — pontuação. O site mapeia a pontuação EQ-Bench 3 Elo de cada modelo e a pontuação Arena Elo para um EQ estimado usando escalas lineares por partes calibradas e, em seguida, obtém uma composição ponderada 50/50 dos dois.

As pontuações de QE produzem uma classificação significativamente diferente do QI sozinho. No gráfico de dispersão de QI vs. EQ, o Opus 4.7 da Anthropic lidera em EQ com uma pontuação próxima a 132, empurrando-o para o quadrante superior direito – a posição mais desejável, sinalizando alta inteligência cognitiva e emocional. O cluster GPT-5.5 e GPT-5.4 da OpenAI está na zona de alto QI, mas fica ligeiramente atrás no EQ. O Gemini 3.1 Pro do Google ocupa uma posição intermediária forte em ambos os eixos.

Uma escolha metodológica notável chamou a atenção: o EQ-Bench 3 é julgado por Claude, um modelo antrópico, que o site reconhece "cria potencial viés de pontuação em favor dos modelos antrópicos." Para corrigir isso, o AI IQ subtrai uma penalidade Elo de 200 pontos do componente EQ-Bench para todos os modelos antrópicos antes de mapear para o EQ implícito. O componente Arena não é afetado porque utiliza juízes humanos. Essa autocorreção é incomum no mundo do benchmarking e sugere que Shea está ciente do campo minado metodológico em que entrou. Ainda assim, a dimensão do QE capta algo que o QI por si só não consegue: a importância crescente da qualidade conversacional, da colaboração e da confiança em modelos implementados para o trabalho voltado para o utilizador.

O gráfico de custo-desempenho de IA que os compradores empresariais realmente precisam ver

Talvez o gráfico mais prático do site não seja a curva em forma de sino, mas o gráfico de dispersão de QI versus custo efetivo. Ele mapeia o QI estimado de cada modelo em relação a um "custo efetivo" métrica — definida como o custo do token para uma tarefa usando 2 milhões de tokens de entrada e 1 milhão de tokens de saída, multiplicado por um fator de eficiência de uso.

O gráfico revela um padrão familiar na tecnologia empresarial: os melhores modelos nem sempre têm o melhor valor. GPT-5.5 e Opus 4.7 ficam no canto superior esquerdo – alto QI, alto custo, com custos efetivos por tarefa ao norte de US$ 30 e US$ 50, respectivamente. Enquanto isso, modelos como GPT-5.4-mini, DeepSeek-V3.2 e MiniMax-M2.7 ocupam um ponto ideal no meio: pontuações de QI respeitáveis entre 112 e 120, com custos efetivos que variam de aproximadamente US$ 1 a US$ 5 por tarefa. No extremo mais barato, o GPT-oss-20b (um modelo OpenAI de código aberto) parece um custo efetivo próximo de US$ 0,20 com um QI em torno de 107 – potencialmente a opção mais econômica para cargas de trabalho de classificação ou extração em massa.

O site também oferece uma visualização 3D mapeando QI, EQ e custo efetivo simultaneamente. Uma linha tracejada que atravessa o cubo aponta para o ideal: QI mais alto, QE mais alto e custo mais baixo. Modelos perto do "fim verde" desse eixo estão acordos gerais mais fortes; aqueles perto do "extremidade vermelha" capacidade de sacrifício, eficiência de custos ou ambos. Para os CIOs que analisam faturas de API, a implicação é clara: a lacuna de inteligência entre um modelo de US$ 50 e um modelo de US$ 3 diminuiu o suficiente para que o roteamento — usando modelos caros para problemas difíceis e modelos baratos para todo o resto — não seja mais opcional. É a arquitetura dominante para implantações sérias de IA.

Os críticos dizem que a IA "irregular" capacidades tornam uma única pontuação de QI perigosamente enganosa

A objeção mais veemente ao QI da IA é filosófica e atinge profundamente. Os críticos argumentam que agrupar as capacidades desiguais de um modelo numa única pontuação obscurece mais do que revela.

"O QI como proxy está desaparecendo – estamos vendo picos de densidade de raciocínio que não são mapeados para o fator g," postou Zaya, um comentarista de tecnologia, no X. "O GPT-5.5 já atingiu a saturação no MMLU-Pro, mas ainda falha no ClockBench 50% das vezes."

Essa observação aborda o que os pesquisadores de IA chamam de "irregularidade" Problema: grandes modelos de linguagem muitas vezes exibem capacidades extremamente desiguais, destacando-se em física de pós-graduação e falhando em tarefas que uma criança poderia realizar. Uma pontuação composta pode cobrir essas lacunas.

Pressureangle, outro usuário do X, postou uma crítica mais granular, chamando "total falta de transparência" e argumentando que o site nunca divulga completamente como suas curvas de calibração foram criadas ou validadas. Para ser justo, o AI IQ lista seus 12 benchmarks e mostra a forma de cada curva de calibração em seu modal de metodologia. Mas os dados brutos e as transformações matemáticas precisas não são publicados como conjuntos de dados abertos – uma lacuna que é importante para os investigadores habituados a métodos totalmente reproduzíveis.

Outros questionaram a própria premissa. "Tão inútil quanto o teste de QI humano," escreveu haashim no X. Shubham Sharma, um escritor de IA e tecnologia, ofereceu uma alternativa construtiva: "Por que não fazer com que os Modelos façam um teste oficial (MENSA-Grade)? Não seria esta a forma mais precisa e mais “comparável aos seres humanos” de avaliar a inteligência?" Essa abordagem já existe através do TrackingAI, que administra o teste de QI Mensa Norway para modelos de linguagem. Mas os testes do estilo Mensa medem apenas o reconhecimento de padrões abstratos, enquanto o AI IQ tenta uma composição mais ampla entre codificação, matemática e raciocínio acadêmico. Como observou o Visual Capitalist, "um benchmark no estilo IQ captura apenas uma fatia da capacidade." Cada abordagem tem vantagens e desvantagens – e nenhuma delas ganhou a discussão ainda.

A verdadeira corrida não é pela pontuação mais alta – é pela pilha de modelos mais inteligente

Apesar de todo o debate sobre metodologia, o sinal mais importante nos dados do AI IQ pode não ser a pontuação de um único modelo. É a forma do mercado que os gráficos revelam.

Existem agora mais de 50 modelos de ponta disponíveis através de APIs, de pelo menos 14 grandes fornecedores abrangendo os Estados Unidos, China e Europa. Cada fornecedor publica os seus próprios benchmarks, muitas vezes escolhidos a dedo para mostrar os seus pontos fortes. O resultado é uma Torre de Babel onde não há duas empresas que meçam a mesma coisa da mesma maneira. A pesquisa acadêmica destacou que "a maioria dos benchmarks introduz preconceitos ao focar em um tipo específico de domínio," e o gráfico Frontier IQ Over Time no AI IQ mostra a rapidez com que os alvos estão se movendo: em outubro de 2023, o GPT-4-turbo estava próximo de um QI estimado de 75. No início de 2026, os principais modelos estavam atingindo 135 – cerca de 60 pontos de melhoria em 30 meses.

Esse ritmo levanta uma questão fundamental sobre se algum sistema de pontuação consegue acompanhar. O site comprime os tetos para benchmarks saturados, mas à medida que os modelos continuam a maximizar até mesmo os testes mais difíceis – ARC-AGI-2, FrontierMath Tier 4, Último Exame da Humanidade – a estrutura enfrentará os mesmos efeitos de teto que afetaram todas as avaliações de IA anteriores. Connor Forsyth apontou para esta dinâmica no X: "ARC AGI 3 discorda," escreveu ele, referindo-se a um benchmark de próxima geração que pode já estar minando as pontuações atuais.

O QI da IA não é perfeito. Sua metodologia é parcialmente opaca. A sua metáfora de QI pode enganar. E seu criador reconhece preconceitos conhecidos, embora provavelmente ignore outros. Mas a alternativa – percorrer dezenas de tabelas de benchmark específicas de fornecedores, cada uma usando diferentes conjuntos de testes e convenções de pontuação – é pior. O site oferece aos compradores corporativos algo genuinamente escasso: uma estrutura única para comparar modelos entre fornecedores, dimensões e faixas de preço, atualizada regularmente, com nuances suficientes para mostrar que a resposta certa para "qual modelo é melhor?" é quase sempre "depende da tarefa."

Como Debdoot Ghosh refletiu sobre X depois de ver os gráficos: "Agora, o papel do ser humano é apenas orquestrar?"

Talvez. Mas se os dados do AI IQ mostram alguma coisa claramente, é que a orquestração – saber qual modelo implementar, quando e a que preço – se tornou a sua própria forma de inteligência. E para isso ainda não existe um benchmark.

Fonte ==> Cyberseo