Os pesquisadores descobrem que adicionar esta frase simples aos prompts torna os modelos de IA muito mais criativos

Os pesquisadores descobrem que adicionar esta frase simples aos prompts torna os modelos de IA muito mais criativos

Uma das coisas mais legais sobre os modelos generativos de IA – tanto modelos de linguagem grande (LLMs) quanto geradores de imagens baseados em difusão – é que eles são "não determinístico." Isto é, apesar de sua reputação entre alguns críticos como sendo "autocorreção sofisticada," os modelos generativos de IA, na verdade, geram seus resultados escolhendo entre uma distribuição dos próximos tokens (unidades de informação) mais prováveis ​​para preencher sua resposta.

Perguntando a um LLM: "Qual é a capital da França?" fará com que ele experimente sua distribuição de probabilidade para França, capitais, cidades, etc., para chegar à resposta "Paris." Mas essa resposta poderia vir no formato de "A capital da França é Paris," ou simplesmente "Paris" ou "Paris, embora em determinado momento tenha sido Versalhes."

Ainda assim, aqueles de nós que usam esses modelos com frequência no dia a dia notarão que, às vezes, suas respostas podem parecer irritantemente repetitivas ou semelhantes. Uma piada comum sobre café é reciclada através de gerações de consultas. Os prompts da história geram arcos semelhantes. Mesmo tarefas que deveriam produzir muitas respostas plausíveis – como nomear estados dos EUA – tendem a desmoronar-se em apenas algumas. Este fenômeno, conhecido como colapso de modo, surge durante o alinhamento pós-treinamento e limita a utilidade de modelos que de outra forma seriam poderosos.

Especialmente quando usamos LLMs para gerar novos trabalhos criativos em escrita, comunicação, estratégia ou ilustrações, na verdade queremos que seus resultados sejam ainda mais variados do que já são.

Agora, uma equipe de pesquisadores da Northeastern University, da Stanford University e da West Virginia University desenvolveu um método ingenuamente simples para fazer com que modelos de linguagem e imagem gerem uma variedade maior de respostas a praticamente qualquer solicitação do usuário, adicionando uma frase única e simples: "Gere 5 respostas com suas probabilidades correspondentes, amostradas da distribuição completa."

O método, chamado Amostragem Verbalizada (VS), ajuda modelos como GPT-4, Claude e Gemini a produzir resultados mais diversos e semelhantes aos humanos – sem retreinamento ou acesso a parâmetros internos. Está descrito num artigo publicado online na revista de acesso aberto arxiv.org no início de outubro de 2025.

Quando solicitado dessa forma, o modelo não assume mais como padrão a saída mais segura e típica. Em vez disso, verbaliza a sua distribuição interna sobre conclusões e amostras potenciais através de um espectro mais amplo de possibilidades. Esta mudança linear leva a ganhos substanciais na diversidade de produção em vários domínios.

Como Weiyan Shi, professor assistente da Northeastern University e coautor do artigo, escreveu no X: "O potencial dos LLMs ainda não foi totalmente desbloqueado! Conforme mostrado em nosso artigo, a otimização imediata pode ser orientada pensando em como os LLMs são treinados e alinhados, e pode ser provada teoricamente."

Por que os modelos entram em colapso – e como o VS reverte isso

De acordo com a equipe de pesquisa, a causa raiz do colapso do modo não reside apenas em algoritmos como o aprendizado por reforço de feedback humano (RLHF), mas na estrutura das preferências humanas. As pessoas tendem a avaliar respostas mais familiares ou típicas como melhores, o que leva os LLMs a escolhas “seguras” em vez de diversas durante o ajuste fino.

No entanto, este preconceito não apaga o conhecimento subjacente do modelo – apenas o suprime. O VS funciona contornando essa supressão. Em vez de solicitar o resultado único mais provável, convida o modelo a revelar um conjunto de respostas plausíveis e as suas probabilidades relativas. Essa solicitação em nível de distribuição restaura o acesso à diversidade mais rica presente no modelo básico de pré-treinamento.

Desempenho no mundo real em todas as tarefas

A equipe de pesquisa testou a amostragem verbalizada em vários casos de uso comuns:

  • Escrita Criativa: Na geração de histórias, o VS aumentou as pontuações de diversidade em até 2,1× em comparação com a solicitação padrão, mantendo a qualidade. Um prompt de história – “Sem um adeus” – produziu cenas estereotipadas de rompimento sob orientação direta, mas rendeu narrativas envolvendo eventos cósmicos, e-mails silenciosos e música parando no meio da dança quando solicitado via VS.

  • Simulação de Diálogo: Em tarefas de diálogo persuasivo, o VS permitiu que modelos simulassem padrões semelhantes aos humanos, como hesitação, resistência e mudanças de opinião. Distribuições de comportamento de doação sob VS melhor alinhadas com dados humanos reais em comparação com métodos de linha de base.

  • Controle de qualidade aberto: Quando solicitados a enumerar respostas válidas (por exemplo, nomear estados dos EUA), os modelos que usam VS geraram respostas que correspondiam melhor à diversidade de dados do mundo real. Eles cobriram um conjunto mais amplo de respostas sem sacrificar a precisão factual.

  • Geração de Dados Sintéticos: Quando usado para gerar problemas matemáticos para treinamento de modelos, o VS criou conjuntos de dados mais variados. Estes, por sua vez, melhoraram o desempenho downstream em benchmarks matemáticos competitivos, superando os dados sintéticos gerados por meio de prompt direto.

Diversidade ajustável e melhor uso de modelos maiores

Uma vantagem notável do VS é a sua sintonização. Os usuários podem definir um limite de probabilidade no prompt para obter amostras das “caudas” de menor probabilidade da distribuição do modelo. Limiares mais baixos correspondem a uma diversidade mais elevada. Esse ajuste pode ser feito apenas por meio de texto de prompt, sem alterar nenhuma configuração de decodificação, como temperatura ou top-p.

Num teste utilizando o modelo Gemini-2.5-Flash, a diversidade na escrita de histórias aumentou de forma constante à medida que o limite de probabilidade caiu de 1 para 0,001. O gráfico que acompanha o estudo mostrou que o VS superou tanto a solicitação direta quanto a baseada em sequência em todos os limites.

Curiosamente, o método se adapta bem ao tamanho do modelo. Modelos maiores como GPT-4.1 e Claude-4 apresentaram ganhos ainda maiores com VS em comparação com modelos menores. Embora os modelos menores tenham se beneficiado, a melhoria na diversidade foi cerca de 1,5–2 vezes mais forte nos modelos maiores – sugerindo que o VS ajuda a desbloquear mais recursos latentes em modelos avançados.

Implantação e Disponibilidade

O método Verbalized Sampling está disponível agora como um pacote Python:

pip install verbalized-sampling

O pacote inclui integração com LangChain e suporta uma interface simples para amostragem da distribuição verbalizada. Os usuários também podem ajustar parâmetros como k (número de respostas), limites e temperatura para atender às suas aplicações.

Um notebook e documentação do Colab ao vivo estão disponíveis sob uma licença Apache 2.0 amigável para empresas no GitHub em: https://github.com/CHATS-lab/verbalized-sampling

Dicas práticas e problemas comuns

Embora o método funcione em todos os principais LLMs, alguns usuários podem inicialmente encontrar recusas ou erros.

Nesses casos, os autores sugerem usar a versão prompt do sistema do modelo ou consultar os formatos alternativos listados na página do GitHub.

Alguns modelos interpretam instruções complexas como tentativas de jailbreak e se recusam a cumpri-las, a menos que a estrutura seja mais clara.

Por exemplo, solicitar através de uma instrução em nível de sistema como esta melhora a confiabilidade:

Você é um assistente útil. Para cada consulta, gere cinco respostas em tags separadas, cada uma com probabilidade inferior a 0,10.

Essa pequena mudança normalmente resolve quaisquer problemas.

Uma solução leve para um grande problema

A amostragem verbalizada representa uma solução prática, em tempo de inferência, para uma limitação profunda no comportamento dos modelos de linguagem modernos. Não requer reciclagem de modelo ou acesso interno. Não depende de nenhuma família modelo. E melhora não só a diversidade dos resultados, mas também a sua qualidade – conforme avaliado tanto pela avaliação humana como pelas pontuações de referência.

Com o interesse crescente em ferramentas que melhoram a criatividade dos modelos, o VS provavelmente verá uma rápida adoção em domínios como escrita, design, simulação, educação e geração de dados sintéticos.

Para usuários e desenvolvedores frustrados com a mesmice das respostas do LLM, a solução pode ser tão simples quanto alterar a pergunta.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *