O Gemini Transparency Cut folhas do Google Desenvolvedores ‘Depuradores de Depuração’ Cegos ‘

O Gemini Transparency Cut folhas do Google Desenvolvedores 'Depuradores de Depuração' Cegos '

Junte -se ao evento confiável pelos líderes corporativos por quase duas décadas. A VB Transform reúne as pessoas que construíram a estratégia de IA da empresa real. Saber mais


A recente decisão do Google de ocultar os tokens de raciocínio bruto de seu principal modelo, Gemini 2.5 Pro, provocou uma reação feroz de desenvolvedores que confiam nessa transparência para criar e depurar aplicativos.

A mudança, que ecoa um movimento semelhante pelo OpenAI, substitui o raciocínio passo a passo do modelo por um resumo simplificado. A resposta destaca uma tensão crítica entre a criação de uma experiência polida do usuário e o fornecimento das ferramentas observáveis ​​e confiáveis ​​que as empresas precisam.

À medida que as empresas integram grandes modelos de idiomas (LLMS) em sistemas mais complexos e de missão crítica, o debate sobre quanto do trabalho interno do modelo deve ser exposto está se tornando uma questão definidora para o setor.

Um ‘downgrade fundamental’ na transparência da IA

Para resolver problemas complexos, os modelos avançados de IA geram um monólogo interno, também chamado de “cadeia de pensamento” (COT). Esta é uma série de etapas intermediárias (por exemplo, um plano, um rascunho de código, uma autocorreção) que o modelo produz antes de chegar à sua resposta final. Por exemplo, pode revelar como está processando dados, quais bits de informações estão usando, como está avaliando seu próprio código, etc.

Para os desenvolvedores, essa trilha de raciocínio geralmente serve como uma ferramenta essencial de diagnóstico e depuração. Quando um modelo fornece uma saída incorreta ou inesperada, o processo de pensamento revela onde sua lógica se desviou. E foi uma das principais vantagens do Gemini 2.5 Pro sobre o O1 e O3 da OpenAI.

No fórum de desenvolvedores de IA do Google, os usuários chamaram de remoção desse recurso de “regressão maciça”. Sem ele, os desenvolvedores são deixados no escuro. Como disse um usuário no fórum do Google: “Não posso diagnosticar com precisão nenhum problema se não puder ver a cadeia bruta de pensamento como costumávamos”. Outro descrito sendo forçado a “adivinhar” por que o modelo falhou, levando a “laços repetitivos e incrivelmente frustrantes tentando consertar as coisas”.

Além da depuração, essa transparência é crucial para a construção de sistemas sofisticados de IA. Os desenvolvedores dependem do COT para ajustar as instruções e as instruções do sistema, que são as principais maneiras de direcionar o comportamento de um modelo. O recurso é especialmente importante para a criação de fluxos de trabalho agênticos, onde a IA deve executar uma série de tarefas. Um desenvolvedor observou: “Os COTS ajudaram enormemente a ajustar corretamente os fluxos de trabalho agênticos”.

Para as empresas, esse movimento em direção à opacidade pode ser problemático. Os modelos de IA de caixa preta que ocultam seu raciocínio introduzem riscos significativos, dificultando a confiação de seus resultados em cenários de alto risco. Essa tendência, iniciada pelos modelos de raciocínio da série O da OpenAI e agora adotada pelo Google, cria uma abertura clara para alternativas de código aberto, como Deepseek-R1 e QWQ-32B.

Os modelos que fornecem acesso total às suas cadeias de raciocínio oferecem às empresas mais controle e transparência sobre o comportamento do modelo. A decisão para um chumbo CTO ou IA não é mais apenas sobre qual modelo possui as maiores pontuações de referência. Agora é uma escolha estratégica entre um modelo de melhor desempenho, mas opaco e mais transparente, que pode ser integrado com maior confiança.

Resposta do Google

Em resposta ao clamor, os membros da equipe do Google explicaram sua lógica. Logan Kilpatrick, gerente sênior de produtos do Google Deepmind, esclareceu que a mudança era “puramente cosmética” e não afeta o desempenho interno do modelo. Ele observou que, para o aplicativo Gemini voltado para o consumidor, ocultar o longo processo de pensamento cria uma experiência mais limpa do usuário. “A % de pessoas que lerão ou lêem pensamentos no aplicativo Gemini é muito pequeno”, disse ele.

Para os desenvolvedores, os novos resumos foram o primeiro passo para acessar programaticamente traços de raciocínio através da API, o que não era possível anteriormente.

A equipe do Google reconheceu o valor dos pensamentos brutos para os desenvolvedores. “Ouvi dizer que todos querem pensamentos crus, o valor é claro, há casos de uso que os exigem”, escreveu Kilpatrick, acrescentando que trazer o recurso de volta ao estúdio de IA focado no desenvolvedor é “algo que podemos explorar”.

A reação do Google à reação do desenvolvedor sugere que é possível um meio termo, talvez através de um “modo de desenvolvedor” que reensba o acesso de pensamento cru. A necessidade de observabilidade só crescerá à medida que os modelos de IA evoluem para agentes mais autônomos que usam ferramentas e executam planos complexos e de várias etapas.

Como Kilpatrick concluiu em suas observações: “… posso imaginar facilmente que os pensamentos crus se tornam um requisito crítico de todos os sistemas de IA, dada a crescente complexidade e a necessidade de observabilidade + rastreamento”.

Os tokens de raciocínio são superestimados?

No entanto, especialistas sugerem que há dinâmica mais profunda em jogo do que apenas a experiência do usuário. Subbarao Kambhampati, professor de IA da Universidade Estadual do Arizona, questiona se os “tokens intermediários” que um modelo de raciocínio produz antes que a resposta final possa ser usada como um guia confiável para entender como o modelo resolve problemas. Um artigo que ele é co-autor de co-autoria argumenta que antropomorfizando “tokens intermediários” como “raciocínio de raciocínio” ou “pensamentos” podem ter implicações perigosas.

Os modelos geralmente entram em direções intermináveis ​​e ininteligíveis em seu processo de raciocínio. Vários experimentos mostram que os modelos treinados em falsos traços de raciocínio e resultados corretos podem aprender a resolver problemas tão bem quanto modelos treinados em traços de raciocínio bem curados. Além disso, a última geração de modelos de raciocínio é treinada por meio de algoritmos de aprendizado de reforço que verificam apenas o resultado final e não avaliam o “rastreamento de raciocínio” do modelo.

“O fato de as sequências intermediárias de token geralmente parecerem razoavelmente com o trabalho de arranhões humanos com melhor formação e soletação … não nos diz muito sobre se eles são usados ​​para qualquer lugar perto dos mesmos propósitos que os humanos os usam, e muito menos sobre se eles podem ser usados ​​como uma janela interpretável para o que o LLM é ‘pensamento’ ou como uma justificativa confiável da resposta final”.

“A maioria dos usuários não consegue entender nada com os volumes dos tokens intermediários brutos que esses modelos lançam”, disse Kambhampati ao VentureBeat. “Como mencionamos, o Deepseek R1 produz 30 páginas de pseudo-inglês na solução de um simples problema de planejamento! Uma explicação cínica de por que o1/O3 decidiu não mostrar os tokens crus originalmente talvez porque percebessem que as pessoas perceberão o quão incoerentes são!”

Dito isto, Kambhampati sugere que os resumos ou explicações pós-fato provavelmente serão mais compreensíveis para os usuários finais. “A questão se torna até que ponto eles são indicativos das operações internas pelas quais os LLMs passaram”, disse ele. “Por exemplo, como professor, eu posso resolver um novo problema com muitas partidas falsas e backtracks, mas explicar a solução da maneira que acho que facilita a compreensão dos alunos.”

A decisão de ocultar o COT também serve como um fosso competitivo. Rastreios de raciocínio cru são dados de treinamento incrivelmente valiosos. Como observa Kambhampati, um concorrente pode usar esses traços para realizar “destilação”, o processo de treinamento de um modelo menor e mais barato para imitar as capacidades de uma mais poderosa. Esconder os pensamentos brutos torna muito mais difícil para os rivais copiar o molho secreto de um modelo, uma vantagem crucial em uma indústria que exige recursos.

O debate sobre a cadeia de pensamento é uma prévia de uma conversa muito maior sobre o futuro da IA. Ainda há muito a aprender sobre o funcionamento interno dos modelos de raciocínio, como podemos aproveitá -los e até que ponto os provedores de modelos estão dispostos a permitir que os desenvolvedores os acessassem.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *