Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Infelizmente para o Google, o lançamento de seu mais recente modelo de idioma, Gemini 2.5 Pro, foi enterrado sob a tempestade de imagem do Studio Ghibli AI que sugou o ar do espaço da IA. E talvez com medo de seus lançamentos falhados anteriores, o Google o apresentou cautelosamente como “nosso modelo de IA mais inteligente” em vez da abordagem de outros laboratórios de IA, que apresentam seus novos modelos como os melhores do mundo.
No entanto, experimentos práticos com exemplos do mundo real mostram que o Gemini 2.5 Pro é realmente impressionante e atualmente pode ser o melhor modelo de raciocínio. Isso abre o caminho para muitas novas aplicações e, possivelmente, coloca o Google na vanguarda da corrida generativa da IA.
Longo contexto com boas capacidades de codificação
O recurso excelente do Gemini 2.5 Pro é sua janela de contexto muito longa e comprimento de saída. O modelo pode processar até 1 milhão de tokens (com 2 milhões em breve), possibilitando se adequar a vários documentos longos e repositórios de código inteiros no prompt quando necessário. O modelo também possui um limite de saída de 64.000 tokens em vez de cerca de 8.000 para outros modelos de Gemini.
A janela de contexto longa também permite conversas prolongadas, pois cada interação com um modelo de raciocínio pode gerar dezenas de milhares de tokens, especialmente se envolver código, imagens e vídeo (eu encontrei esse problema com o soneto Claude 3,7, que possui uma janela de contexto de 200.000 toques).
Por exemplo, o engenheiro de software Simon Willison usou o Gemini 2.5 Pro para criar um novo recurso para seu site. Willison disse em um blog: “Ele interrompeu toda a minha base de código e descobriu todos os lugares que eu precisava mudar – 18 arquivos no total, como você pode ver no pr. O projeto inteiro resultante levou cerca de 45 minutos do início ao fim – o que me revi um pouco mais de três minutos por arquivo que eu tive que modificar.
Raciocínio multimodal impressionante
O Gemini 2.5 Pro também possui habilidades impressionantes de raciocínio sobre texto, imagens e vídeos não estruturados. Por exemplo, forneci o texto do meu artigo recente sobre a pesquisa baseada em amostragem e o levou a criar um gráfico SVG que descreve o algoritmo descrito no texto. O GEMINI 2.5 Pro corretamente extraiu informações -chave do artigo e criou um fluxograma para o processo de amostragem e pesquisa, mesmo obtendo as etapas condicionais corretamente. (Para referência, a mesma tarefa levou várias interações com o Claude 3,7 sonetos e eu finalmente maxtei o limite do token.)

A imagem renderizada teve alguns erros visuais (pontas de seta são extraviadas). Ele poderia usar um facelift, então eu testei o Gemini 2.5 Pro com um prompt multimodal, dando-lhe uma captura de tela do arquivo SVG renderizado junto com o código e solicitando-o a melhorá-lo. Os resultados foram impressionantes. Ele corrigiu as pontas de seta e melhorou a qualidade visual do diagrama.

Outros usuários tiveram experiências semelhantes com instruções multimodais. Por exemplo, em seus testes, o Datacamp replicou o exemplo do jogo corredor apresentado no blog do Google, depois forneceu o código e uma gravação de vídeo do jogo para o Gemini 2.5 Pro e o levou a fazer algumas alterações no código do jogo. O modelo pode raciocinar o visual, encontrar a parte do código que precisava ser alterado e fazer as modificações corretas.
Vale a pena notar, no entanto, que, como outros modelos generativos, o Gemini 2.5 Pro é propenso a cometer erros, como modificar arquivos não relacionados e segmentos de código. Quanto mais precisas forem suas instruções, menor o risco de o modelo fazer alterações incorretas.
Análise de dados com rastreamento de raciocínio útil
Finalmente, testei o Gemini 2.5 Pro no meu teste clássico de análise de dados confusos para modelos de raciocínio. Eu forneci um arquivo contendo uma mistura de dados de texto simples e html bruto que eu havia copiado e colado de diferentes páginas de histórico de ações no Yahoo! Financiar. Em seguida, solicitei calcular o valor de um portfólio que investiria US $ 140 no início de cada mês, espalhados uniformemente pelas magníficas 7 ações, de janeiro de 2024 até a última data do arquivo.
O modelo identificou corretamente quais ações precisavam escolher do arquivo (Amazon, Apple, Nvidia, Microsoft, Tesla, Alfabet e Meta), extraiu as informações financeiras dos dados HTML e calculou o valor de cada investimento com base no preço das ações no início de cada mês. Ele respondeu a uma tabela bem formatada com valor de ações e portfólio a cada mês e forneceu uma quebra de quanto todo o investimento valia no final do período.

Mais importante, achei o rastreamento do raciocínio muito útil. Não está claro se o Google revela os tokens de cadeia de pensamento bruto (COT) para Gemini 2.5 Pro, mas o rastreamento de raciocínio é muito detalhado. Você pode ver claramente como o modelo está raciocinando sobre os dados, extraindo diferentes bits de informação e calculando os resultados antes de gerar a resposta. Isso pode ajudar a solucionar o comportamento do modelo e direcioná -lo na direção certa quando comete erros.

Raciocínio da qualidade corporativa?
Uma preocupação com a Gemini 2.5 Pro é que ele está disponível apenas no modo de raciocínio, o que significa que o modelo sempre passa pelo processo de “pensamento”, mesmo para prompts muito simples que podem ser respondidos diretamente.
O Gemini 2.5 Pro está atualmente na versão de visualização. Depois que o modelo completo for lançado e as informações de preços estiverem disponíveis, teremos uma melhor compreensão de quanto custará criar aplicativos corporativos sobre o modelo. No entanto, à medida que os custos de inferência continuam a cair, podemos esperar que se torne prático em escala.
O Gemini 2.5 Pro pode não ter tido a estréia mais espirituosa, mas suas capacidades exigem atenção. Sua enorme janela de contexto, impressionante raciocínio multimodal e cadeia de raciocínio detalhada oferecem vantagens tangíveis para cargas de trabalho corporativas complexas, desde a refatoração da base de código até a análise de dados diferenciados.
Insights diários sobre casos de uso de negócios com VB diariamente
Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins de VB aqui.
Ocorreu um erro.
Fonte ==> Cyberseo