Dentro do salto de IA do Google: Gemini 2.5 pensa mais profundamente, fala mais inteligente e códigos mais rápido

Dentro do salto de IA do Google: Gemini 2.5 pensa mais profundamente, fala mais inteligente e códigos mais rápido

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


O Google está se aproximando de seu objetivo de um “assistente universal de IA” que pode entender o contexto, planejar e agir.

Hoje, no Google E/S, a gigante da tecnologia anunciou aprimoramentos em seu flash Gemini 2.5 – agora é melhor em quase todas as dimensões, incluindo parâmetros de referência para raciocínio, código e contexto longo – e 2,5 Pro, incluindo um modo experimental de raciocínio aprimorado, ‘pense profundo’, que permite que o Pro considere várias hipóteses antes de responder.

“Este é o nosso objetivo final para o aplicativo Gemini: uma IA que é pessoal, proativa e poderosa”, disse Demis Hassabis, CEO do Google DeepMind, em um pré-brieque da imprensa.

O ‘Deep Think’ pontua impressionantemente nos benchmarks superiores

O Google anunciou a Gemini 2.5 Pro-o que considera seu modelo mais inteligente até agora, com uma janela de contexto de um milhão de tacos-em março, e lançou sua edição de codificação “E/S” no início deste mês (com Hassabis chamando de “o melhor modelo de codificação que já construímos!”).

“Ficamos realmente impressionados com o que as pessoas criaram, desde transformar esboços em aplicativos interativos até simular cidades inteiras”, disse Hassabis.

Ele observou que, com base na experiência do Google com o AlphaGo, as respostas do modelo de IA melhoram quando são dadas mais tempo para pensar. Isso levou os cientistas DeepMind a desenvolver o Deep Think, que usa a mais recente pesquisa de ponta do Google em pensamento e raciocínio, incluindo técnicas paralelas.

O Deep Think mostrou pontuações impressionantes nos benchmarks de matemática e codificação mais difíceis, incluindo a Olimpíada Matemática dos EUA (USAMO) dos EUA. Ele também lidera o LivecodeBench, um benchmark difícil para a codificação no nível da concorrência e pontua 84,0% no MMMU, que testa o entendimento e o raciocínio multimodais.

Hassabis acrescentou: “Estamos demorando um pouco para realizar mais avaliações de segurança de fronteira e obter mais informações de especialistas em segurança”. (Significado: como por enquanto, está disponível para testadores confiáveis ​​por meio da API para feedback antes que a capacidade seja amplamente disponível.)

No geral, o novo 2,5 Pro lidera a Popular Coding Leaderboard WebDev Arena, com uma pontuação ELO-que mede o nível de habilidade relativa dos jogadores em jogos de dois jogadores como o xadrez-de 1420 (intermediário a proficiente). Também lidera todas as categorias da tabela de classificação Lmarena, que avalia a IA com base na preferência humana.

Desde o seu lançamento, “ficamos realmente impressionados com o que os usuários criaram, desde transformar esboços em aplicativos interativos até simular cidades inteiras”, disse Hassabis.

Atualizações importantes para Gemini 2.5 Pro, Flash

Hoje também, o Google anunciou um Flash 2,5 aprimorado, considerado seu modelo de cavalo de trabalho projetado para velocidade, eficiência e baixo custo. 2.5 O Flash foi aprimorado em todos os aspectos em benchmarks para raciocínio, multimodalidade, código e contexto longo – Hassabis observou que é “somente apenas” para 2,5 Pro na tabela de classificação Lmarena. O modelo também é mais eficiente, usando 20 a 30% menos tokens.

O Google está fazendo ajustes finais para 2,5 flash com base no feedback do desenvolvedor; Agora está disponível para visualização no Google AI Studio, Vertex AI e no aplicativo Gemini. Geralmente estará disponível para produção no início de junho.

O Google está trazendo recursos adicionais para o Gemini 2.5 Pro e 2.5 Flash, incluindo saída de áudio nativo para criar experiências de conversação mais naturais, texto em fala para suportar vários alto-falantes, resumos de pensamento e orçamentos de pensamento.

Com a entrada de áudio nativa (na visualização), os usuários podem orientar o tom, o sotaque e o estilo de falar de Gêmeos (pense: direcionar o modelo para ser melodramático ou maudlin ao contar uma história). Como o Project Mariner, o modelo também está equipado com o uso da ferramenta, permitindo pesquisar em nome dos usuários.

Outros recursos experimentais de voz precoce incluem diálogo afetivo, o que oferece ao modelo a capacidade de detectar emoção na voz do usuário e responder adequadamente; áudio proativo que permite ajustar as conversas em segundo plano; e pensando na API ao vivo para apoiar tarefas mais complexas.

Novos recursos de múltiplos alto-falantes no suporte profissional e flash mais de 24 idiomas, e os modelos podem alternar rapidamente de um dialeto para outro. “O texto em fala é expressivo e pode capturar nuances sutis, como sussurros”, escreveu Koray Kavukcuoglu, CTO do Google DeepMind, e Tulsee Doshi, diretor sênior de gerenciamento de produtos do Google DeepMind, escreveu em um blog publicado hoje.

Além disso, o 2.5 Pro e o Flash agora incluem resumos de pensamento na API Gemini e no Vertex AI. Esses “pegam os pensamentos brutos do modelo e os organizam em um formato claro com cabeçalhos, detalhes -chave e informações sobre ações de modelo, como quando usam ferramentas”, explica Kavukcuoglu e Doshi. O objetivo é fornecer um formato mais estruturado e simplificado para o processo de pensamento do modelo e dar aos usuários interações com Gêmeos mais simples de entender e depurar.

Como 2.5 Flash, o Pro também está equipado com ‘Orçamentos de pensamento’, o que oferece aos desenvolvedores a capacidade de controlar o número de tokens que um modelo usa para pensar antes de responder ou, se preferir, desative completamente seus recursos de pensamento. Esse recurso estará geralmente disponível nas próximas semanas.

Finalmente, o Google adicionou o suporte nativo de SDK para definições de protocolo de contexto de modelo (MCP) na API Gemini, para que os modelos possam se integrar mais facilmente às ferramentas de código aberto.

Como Hassabis disse: “Estamos vivendo um momento notável na história em que a IA está possibilitando um novo futuro incrível. Foi um progresso implacável”.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *