Os pesquisadores criaram acelerações de inferência 3x diretamente nos pesos do LLM – sem decodificação especulativa

Os pesquisadores criaram acelerações de inferência 3x diretamente nos pesos do LLM – sem decodificação especulativa

À medida que os fluxos de trabalho de IA multiplicam o custo e a latência de longas cadeias de raciocínio, uma equipe da Universidade de Maryland, Lawrence Livermore National Labs, Columbia University e TogetherAI encontrou uma maneira de incorporar ganhos de rendimento 3x diretamente nos pesos de um modelo.

Ao contrário da decodificação especulativa, que requer um modelo de desenho separado, esta abordagem não requer infraestrutura adicional – apenas um único token especial adicionado à arquitetura existente do modelo.

Os limites da previsão do próximo token

A previsão do próximo token – gerando texto de um token por passagem direta – cria um teto de rendimento que se torna dolorosamente caro quando os modelos precisam produzir milhares de tokens. Este gargalo é especialmente problemático em modelos de raciocínio, que frequentemente geram milhares de “cadeia de pensamento” antes de produzir a resposta final, levando a uma experiência do usuário lenta e cara.

A previsão de múltiplos tokens (MTP) oferece um paradigma de treinamento alternativo que permite que um modelo de linguagem produza vários tokens simultaneamente em uma única passagem direta. Por exemplo, o modelo pode ser treinado para prever um bloco de tokens de uma só vez, em vez de apenas o próximo token imediato.

John Kirchenbauer, doutorando em ciência da computação na Universidade de Maryland e coautor do artigo, disse ao VentureBeat que, à medida que avançamos em direção a fluxos de trabalho de agente, o foco está mudando do rendimento geral para a velocidade de usuário único. "Hoje, com os rastreamentos de pensamento ultralongos sendo a norma e os loops externos de agente multiplicando ainda mais esses custos, a latência está se tornando uma dimensão tão importante da eficiência geral do serviço quanto os tokens brutos por segundo por unidade de hardware (tps/GPU)," Kirchenbauer disse. Ele disse que, embora a previsão do próximo token em lote padrão já seja ideal para o rendimento geral, a nova abordagem "se esforça(m) para saturar a GPU com apenas a consulta de um único usuário para diminuir a latência para esse único usuário."

Existem outros métodos, mas apresentam desvantagens. "É importante notar que a decodificação especulativa e os LLMs de difusão como uma alternativa focada na eficiência para a previsão do próximo token (NTP) são técnicas de aceleração focadas na latência," Kirchenbauer disse. Mas a decodificação especulativa requer a implantação e o gerenciamento de um sistema auxiliar "elaboração" modelo, que gasta mais computação absoluta para elaborar e verificar. O MTP, por outro lado, "alavanca um tipo semelhante de compensação, é apenas mais simples de servir e cientificamente interessante por si só."

Os paradigmas atuais do MTP têm limitações, entretanto. O objetivo padrão para treinar um modelo de linguagem para MTP envolve comparar suas previsões com um texto verdadeiro de um conjunto de dados. A armadilha é que esse treinamento padrão ensina o modelo a prever a probabilidade de um token em uma posição específica de forma independente, em vez de se preocupar com o relacionamento conjunto entre uma sequência de tokens.

Se um modelo tentar prever vários tokens de uma vez usando esse método padrão, ocorrerão dois problemas principais. O primeiro é a incompatibilidade gramatical. Por exemplo, se um modelo prevê duas palavras após o prefixo "O tratador alimentou o," pode ser amostrado de forma independente e produzir uma frase incompatível como "carne de panda" ou "bambu leão" em vez de "bambu panda" e “carne de leão”.

A segunda questão é a repetição degenerada. Como o texto típico é imprevisível, um modelo que tenta prever um token 100 posições no futuro em relação a um conjunto de dados padrão irá apenas prever "o," já que é a palavra mais comum em inglês. Isso faz com que o modelo produza absurdos como "…o o o…" para posições de futuro distante.

Previsão de vários tokens via autodestilação

Para resolver os problemas de geração de múltiplos tokens, os pesquisadores propõem uma nova técnica de treinamento que utiliza um esquema aluno-professor. Um modelo de estudante, que é o modelo que aprende a prever vários tokens, gera um bloco determinístico de vários tokens. Um modelo de professor, agindo como um modelo de linguagem de previsão de próximo token padrão forte, avalia esse bloco. O professor atua como um crítico, calculando quão provável e coerente é a sequência proposta pelo aluno. Se o aluno propor uma frase incompatível como "leão bambu," o professor atribui-lhe uma perda elevada, ensinando o aluno a evitar essa construção.

O paradigma é inspirado na aprendizagem por reforço sob política porque o modelo do aluno não consiste simplesmente em memorizar texto estático. Ele gera um lançamento completo (sequência de ações no jargão RL) instantaneamente em paralelo em um único passe para frente e recebe uma recompensa com base em quão bom o professor acha que é. Ao contrário dos métodos estáticos supervisionados, onde os pares de treinamento são fixados antecipadamente, o feedback aqui é dinâmico, gerado a partir dos resultados do próprio aluno em tempo real. O professor forte também verifica a coerência dos tokens, o que evita que o modelo do aluno aprenda resultados degenerados, como palavras repetidas.

Para os desenvolvedores, a beleza desta abordagem reside na sua simplicidade. "Na verdade, não há modificações na arquitetura, exceto pela adição de um token especial," Kirchenbauer disse. Ao cooptar um slot não utilizado na matriz de incorporação existente de um modelo para atuar como um token de máscara , a técnica converte operações sequenciais em paralelas. "Qualquer modelo padrão de linguagem de previsão de próximo token pode ser adaptado desta forma… a implementação interna – MoE, atenção em janela, camadas SSM, etc. – permanece intocada e não apresenta barreira à adaptação."

Para as equipes de engenharia, isso significa que a adaptação pode ser aplicada a modelos já em produção sem necessidade de reconstrução de pipelines.

A geração de vários tokens ao mesmo tempo ainda pode prejudicar a precisão da resposta no momento da inferência. Para maximizar a velocidade de geração sem sacrificar a qualidade da saída, os autores introduzem uma estratégia de decodificação adaptativa chamada ConfAdapt.

O ConfAdapt avalia um limite de confiança, como 90%, em cada etapa. O modelo gera um bloco de tokens, mas mantém apenas os tokens que atendem ou excedem esse limite de alta confiança. Quando o próximo texto é altamente previsível ou estrutural, a confiança do modelo é muito elevada. Ele aceitará e gerará uma grande quantidade de tokens de uma só vez, economizando um tempo computacional significativo em tokens fáceis. Em seguida, ele concentra seus custosos passes de token único em tokens mais difíceis que exigem mais esforço computacional.

Colocando a previsão de vários tokens em teste

Para ver como o paradigma de treinamento funcionava na prática, os pesquisadores aplicaram seu método a modelos populares ajustados por instrução de peso aberto. Eles testaram o forte modelo de uso geral Llama-3.1-8B-Magpie e o menor e eficiente Qwen3-4B-Instruct-2507, que é frequentemente escolhido para implantações empresariais sensíveis ao custo. Ambos os modelos foram ajustados no MetaMathQA, um conjunto de dados de problemas sintéticos de matemática do ensino fundamental que dependem fortemente de traços de raciocínio.

Os experimentos revelaram um ponto ideal entre velocidade e precisão. Usando a estratégia ConfAdapt, o modelo Llama-3.1-8B alcançou uma aceleração de 3x com uma queda de menos de 3% na precisão em benchmarks matemáticos. O modelo Qwen3-4B alcançou a mesma aceleração de 3x com uma queda ligeiramente maior de 7% na precisão. Configurações mais agressivas poderiam atingir acelerações de 5x, embora viessem com penalidades de precisão mais acentuadas.

A forma como isso se traduz em tarefas do mundo real depende da previsibilidade. "Como a abordagem ConfAdapt adapta naturalmente a aceleração à entropia inerente ao domínio, quando o modelo “sabe” exatamente o que vem a seguir, pode emiti-lo numa única passagem," observou ele, levando a uma aceleração massiva em tarefas previsíveis, ao mesmo tempo que usa mais etapas para resultados incertos.

As acelerações também foram transferidas entre domínios que não foram incluídos na fase de treinamento de predição de vários tokens. Isto incluiu tarefas dentro do mesmo domínio dos dados de treinamento, como matemática e raciocínio, bem como tarefas abertas, como redação criativa e resumo.

Apesar desta aprendizagem por transferência, as empresas que implementam estes modelos para tarefas especializadas não devem confiar inteiramente nela. "Nossa recomendação seria ajustar/adaptar o modelo para MTP usando amostras do domínio industrial especial," Kirchenbauer disse. "O melhor desempenho provavelmente será alcançado se a adaptação do MTP for realizada usando prompts do domínio de implantação."

Servindo a compatibilidade e o caminho a seguir

A equipe de pesquisa divulgou seu modelos treinados em Hugging Face e em breve lançará o código para sua estrutura MTP. As equipes de infraestrutura que integram esses modelos no vLLM ou SGLang precisarão levar em conta as mudanças na forma como o processamento em lote e o cache KV são tratados, mas isso é um investimento único de engenharia, não um fardo contínuo. No entanto, Kirchenbauer vê "não há barreiras claras à integração" e confirmou que a equipe está "trabalhando com alguns especialistas em sistemas para identificar o caminho mais curto para a integração."

O conselho de Kirchenbauer para equipes que desejam testar os modelos lançados: comece com instruções de brinquedo, como contar ou repetir uma frase, para ver os ganhos do ConfAdapt em ação e, em seguida, adapte o modelo usando amostras de seu domínio de implantação específico para obter melhores resultados. "No geral, esperamos que uma implementação de nossa abordagem pronta para produção possa simplificar o ciclo de vida de construção e implantação de modelos de agência de baixa latência," concluiu Kirchenbauer. "Embora as técnicas de aceleração existentes para modelos NTP se concentrem quase exclusivamente em sistemas de inferência e lógica, nossa abordagem apenas incorpora parte da complexidade ao próprio modelo, tornando-o amplamente complementar ao trabalho existente."



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *