Além de Arc-Agi: Gaia e a busca por uma referência real de inteligência

Além de Arc-Agi: Gaia e a busca por uma referência real de inteligência

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


A inteligência é difundida, mas sua medição parece subjetiva. Na melhor das hipóteses, aproximamos sua medida por meio de testes e benchmarks. Pense nos exames de admissão da faculdade: todos os anos, inúmeros alunos se inscrevem, memorizam truques de preparação de teste e às vezes vão embora com pontuações perfeitas. Um único número, digamos 100%, significa que aqueles que o fizeram compartilham a mesma inteligência – ou que de alguma forma atingiram sua inteligência? Claro que não. Os benchmarks são aproximações, não as medidas exatas dos recursos verdadeiros de alguém – ou de algo.

A comunidade generativa de IA confia há muito tempo em benchmarks como a MMLU (entendimento massivo de idiomas de várias tarefas) para avaliar os recursos do modelo por meio de perguntas de múltipla escolha entre as disciplinas acadêmicas. Esse formato permite comparações diretas, mas não consegue realmente capturar recursos inteligentes.

Tanto o Claude 3,5 sonetos quanto o GPT-4.5, por exemplo, alcançam pontuações semelhantes nesse benchmark. No papel, isso sugere recursos equivalentes. No entanto, as pessoas que trabalham com esses modelos sabem que existem diferenças substanciais no desempenho do mundo real.

O que significa medir ‘inteligência’ na IA?

Logo após o novo lançamento do Arc-AGI Benchmark-um teste projetado para empurrar modelos para o raciocínio geral e a solução criativa de problemas-há um debate renovado sobre o que significa medir a “inteligência” na IA. Embora nem todos tenham testado a referência ARC-AGI ainda, a indústria recebe este e outros esforços para desenvolver estruturas de teste. Cada referência tem seu mérito, e o Arc-Agi é um passo promissor nessa conversa mais ampla.

Outro desenvolvimento recente notável na avaliação da IA ​​é o “último exame da humanidade”, um benchmark abrangente contendo 3.000 perguntas de várias etapas revisadas por pares em várias disciplinas. Embora este teste represente uma tentativa ambiciosa de desafiar os sistemas de IA com raciocínio no nível de especialistas, os resultados iniciais mostram progresso rápido-com o OpenAI alcançando uma pontuação de 26,6% dentro de um mês após seu lançamento. No entanto, como outros benchmarks tradicionais, ele avalia principalmente o conhecimento e o raciocínio isoladamente, sem testar as capacidades práticas de uso de ferramentas que são cada vez mais cruciais para as aplicações de IA do mundo real.

Em um exemplo, vários modelos de ponta não contam corretamente o número de “R” s na palavra morango. Em outro, eles identificam incorretamente 3.8 como sendo menores que 3.1111. Esses tipos de falhas-em tarefas que mesmo uma criança ou calculadora básica poderia resolver-expor uma incompatibilidade entre o progresso orientado por referência e a robustez do mundo real, lembrando-nos que a inteligência não é apenas sobre os exames, mas sobre a lógica cotidiana de navegação confiável.

O novo padrão para medir a capacidade de IA

À medida que os modelos avançaram, esses benchmarks tradicionais mostraram suas limitações-o GPT-4 com ferramentas atinge apenas cerca de 15% em tarefas mais complexas do mundo real no benchmark GAIA, apesar das pontuações impressionantes em testes de múltipla escolha.

Essa desconexão entre o desempenho de referência e a capacidade prática tornou -se cada vez mais problemática à medida que os sistemas de IA passam de ambientes de pesquisa para aplicativos de negócios. Os benchmarks tradicionais testam o conhecimento do conhecimento, mas a falta de aspectos cruciais da inteligência: a capacidade de coletar informações, executar código, analisar dados e sintetizar soluções em vários domínios.

Gaia é a mudança necessária na metodologia de avaliação da IA. Criado através da colaboração entre as equipes Meta-Fair, Meta-Genai, Huggingface e AutoGPT, o benchmark inclui 466 perguntas cuidadosamente criadas em três níveis de dificuldade. Essas perguntas testam a navegação na Web, o entendimento multimodal, a execução de código, o manuseio de arquivos e o raciocínio complexo-recursos essenciais para aplicativos de IA do mundo real.

As perguntas de nível 1 requerem aproximadamente 5 etapas e uma ferramenta para os seres humanos resolverem. Perguntas de nível 2 exigem 5 a 10 etapas e várias ferramentas, enquanto as perguntas de nível 3 podem exigir até 50 etapas discretas e qualquer número de ferramentas. Essa estrutura reflete a complexidade real dos problemas de negócios, onde as soluções raramente vêm de uma única ação ou ferramenta.

Ao priorizar a flexibilidade sobre a complexidade, um modelo de IA atingiu 75%de precisão no GAIA-superando os gigantes da indústria da Microsoft da Microsoft-1 (38%) e o agente Langfun do Google (49%). Seu sucesso decorre de usar uma combinação de modelos especializados para entender e raciocínio audiovisual, com o Sonnet 3.5 do Anthropic como modelo principal.

Essa evolução na avaliação da IA ​​reflete uma mudança mais ampla no setor: estamos passando de aplicativos de SaaS independentes para agentes de IA que podem orquestrar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais de sistemas de IA para lidar com tarefas complexas e de várias etapas, os benchmarks como a GAIA fornecem uma medida mais significativa de capacidade do que os testes tradicionais de múltipla escolha.

O futuro da avaliação da IA ​​não está em testes de conhecimento isolados, mas em avaliações abrangentes da capacidade de solução de problemas. Gaia define um novo padrão para medir a capacidade de IA-que reflete melhor os desafios e oportunidades da implantação da IA ​​do mundo real.

Sri Ambati é o fundador e CEO da H2O.ai.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *