Explicação do dimensionamento do treinamento para teste: como otimizar seu orçamento de computação de IA de ponta a ponta para inferência

Edição - Istoé TECH

As diretrizes padrão para a construção de grandes modelos de linguagem (LLMs) otimizam apenas os custos de treinamento e ignoram os custos de inferência. Isto representa um desafio para aplicações do mundo real que utilizam técnicas de escala de tempo de inferência para aumentar a precisão das respostas do modelo, como extrair múltiplas amostras de raciocínio de um modelo na implantação.

Para preencher essa lacuna, pesquisadores da Universidade de Wisconsin-Madison e da Universidade de Stanford introduziram o Train-to-Test (T²) leis de escalabilidade, uma estrutura que otimiza conjuntamente o tamanho dos parâmetros de um modelo, seu volume de dados de treinamento e o número de amostras de inferência em tempo de teste.

Na prática, sua abordagem prova que é ideal para a computação treinar modelos substancialmente menores com muito mais dados do que as regras tradicionais prescrevem e, em seguida, usar a sobrecarga computacional salva para gerar múltiplas amostras repetidas na inferência.

Para desenvolvedores de aplicativos empresariais de IA que estão treinando seus próprios modelos, esta pesquisa fornece um modelo comprovado para maximizar o retorno do investimento. Mostra que o raciocínio da IA não exige necessariamente gastos enormes em modelos de fronteira. Em vez disso, modelos menores podem produzir um desempenho mais forte em tarefas complexas, ao mesmo tempo que mantêm os custos de inferência por consulta gerenciáveis dentro dos orçamentos de implantação do mundo real.

Leis de escala conflitantes

As leis de escala são uma parte importante do desenvolvimento de grandes modelos de linguagem. As leis de escalabilidade pré-treinamento determinam a melhor maneira de alocar computação durante a criação do modelo, enquanto leis de escala de tempo de teste orientar como alocar computação durante a implantação, como deixar o modelo “pensar mais” ou gerar vários exemplos de raciocínio para resolver problemas complexos.

O problema é que estas leis de escala foram desenvolvidas de forma completamente independente umas das outras, apesar de estarem fundamentalmente interligadas.

O tamanho dos parâmetros de um modelo e a duração do treinamento determinam diretamente a qualidade e o custo por consulta de suas amostras de inferência. Atualmente, o padrão ouro da indústria para pré-treinamento é o Regra da chinchilaque sugere uma proporção ideal de computação de aproximadamente 20 tokens de treinamento para cada parâmetro do modelo.

No entanto, os criadores de famílias modernas de modelos de IA, como Llama, Gemma e Qwen, quebram regularmente esta regra ao treinarem intencionalmente os seus modelos mais pequenos em grandes quantidades de dados.

Como Nicholas Roberts, coautor do artigo, disse ao VentureBeat, a abordagem tradicional falha ao construir fluxos de trabalho de agentes complexos: "Na minha opinião, a pilha de inferência falha quando cada chamada de inferência individual é cara. Este é o caso quando os modelos são grandes e é necessário fazer muitas amostragens repetidas." Em vez de depender de modelos massivos, os desenvolvedores podem usar modelos compactos sobretreinados para executar essa amostragem repetida por uma fração do custo.

Mas como as leis de escalonamento de treinamento e tempo de teste são examinadas isoladamente, não existe uma estrutura rigorosa para calcular o quanto um modelo deve ser treinado em excesso com base em quantas amostras de raciocínio ele precisará gerar durante a implantação.

Conseqüentemente, não existia anteriormente nenhuma fórmula que otimizasse conjuntamente o tamanho do modelo, o volume de dados de treinamento e os orçamentos de inferência em tempo de teste.

A razão pela qual esta estrutura é difícil de formular é que o pré-treinamento e o escalonamento do tempo de teste falam duas linguagens matemáticas diferentes. Durante o pré-treinamento, o desempenho de um modelo é medido usando “perda”, uma métrica suave e contínua que rastreia erros de previsão à medida que o modelo aprende.

No momento do teste, os desenvolvedores usam métricas downstream do mundo real para avaliar as capacidades de raciocínio de um modelo, como pass@k, que mede a probabilidade de um modelo produzir pelo menos uma resposta correta em k tentativas repetidas e independentes.

Leis de escalonamento de treinamento para teste

Para resolver a desconexão entre treinamento e implantação, os pesquisadores introduzem Train-to-Test (T²) leis de escala. Em alto nível, esta estrutura prevê o desempenho de raciocínio de um modelo tratando três variáveis como uma única equação: o tamanho do modelo (N), o volume de tokens de treinamento com os quais ele aprende (D) e o número de amostras de raciocínio que ele gera durante a inferência (k).

T² combina orçamentos de pré-treinamento e inferência em uma fórmula de otimização que leva em conta tanto o custo da linha de base para treinar o modelo (6ND) quanto o custo composto para consultá-lo repetidamente na inferência (2Nk). Os pesquisadores tentaram diferentes abordagens de modelagem: modelar a perda pré-treinamento ou o desempenho no tempo de teste (pass@k) como funções de N, D e k.

A primeira abordagem pega a equação matemática familiar usada para o escalonamento da Chinchilla (que calcula o erro ou perda de previsão de um modelo) e a modifica diretamente adicionando uma nova variável que leva em conta o número de amostras repetidas no tempo de teste (k). Isso permite que os desenvolvedores vejam como o aumento da computação de inferência reduz a taxa de erro geral do modelo.

A segunda abordagem modela diretamente a precisão pass@k downstream. Ele informa aos desenvolvedores a probabilidade de seu aplicativo resolver um problema, dado um orçamento de computação específico.

Mas as empresas deveriam usar esta estrutura para todas as aplicações? Roberts esclarece que esta abordagem é altamente especializada. "Imagino que você não veria tantos benefícios em aplicativos com muito conhecimento, como modelos de bate-papo," ele disse. Em vez de, "T² é adaptado para aplicativos de raciocínio pesado, como codificação, onde normalmente você usaria amostragem repetida como método de escalonamento de tempo de teste."

O que isso significa para os desenvolvedores

Para validar o T² leis de escala, os pesquisadores construíram um extenso banco de testes com mais de 100 modelos de linguagem, variando de 5 milhões a 901 milhões de parâmetros. Eles treinaram do zero 21 novos postos de controle com excesso de treinamento para testar se suas previsões matemáticas se sustentavam na realidade. Eles então compararam os modelos em oito tarefas diversas, que incluíam conjuntos de dados do mundo real como SciQ e OpenBookQA, juntamente com tarefas sintéticas projetadas para testar aritmética, raciocínio espacial e recuperação de conhecimento.

Ambos os modelos matemáticos provaram que a fronteira de computação ideal se afasta drasticamente da escala padrão da Chinchilla. Para maximizar o desempenho sob um orçamento fixo, a escolha ideal é um modelo significativamente menor e treinado com muito mais dados do que determina a regra tradicional de 20 tokens por parâmetro.

Em seus experimentos, os modelos pequenos altamente treinados superaram consistentemente os modelos maiores, ótimos para Chinchilla, em todas as oito tarefas de avaliação, quando os custos de amostragem no tempo de teste foram contabilizados.

Para os desenvolvedores que desejam implementar essas descobertas, a barreira técnica é surpreendentemente baixa.

"Nada sofisticado é necessário para realizar o escalonamento em tempo de teste com nossos modelos atuais," Roberts disse. "Na implantação, os desenvolvedores podem integrar totalmente a infraestrutura que torna o processo de amostragem mais eficiente (por exemplo, cache KV se você estiver usando um transformador)."

O cache KV ajuda a armazenar o contexto processado anteriormente para que o modelo não precise reler o prompt inicial do zero para cada nova amostra de raciocínio.

No entanto, o overtraining extremo traz compensações práticas. Embora os modelos sobretreinados possam ser notoriamente teimosos e mais difíceis de ajustar, Roberts observa que, quando aplicaram o ajuste fino supervisionado, "embora este efeito estivesse presente, não foi um efeito suficientemente forte para trazer o modelo ideal de volta para Chinchila." A estratégia de computação ideal permanece definitivamente voltada para modelos compactos.

No entanto, as equipes que levam isso ao limite absoluto devem ter cuidado ao atingir os limites físicos de dados. "Outro ângulo é que se você levar nossas recomendações de overtraining ao extremo, você poderá ficar sem dados de treinamento," Roberts disse, referindo-se ao iminente "parede de dados" onde os dados de alta qualidade da Internet se esgotam.

Esses experimentos confirmam que, se um aplicativo depende da geração de múltiplas amostras de raciocínio em tempo de teste, o overtraining agressivo de um modelo compacto é prática e matematicamente a maneira mais eficaz de gastar um orçamento de computação de ponta a ponta.

Para ajudar os desenvolvedores a começar, a equipe de pesquisa planeja abrir o código-fonte de seus pontos de verificação e código em breve, permitindo que as empresas conectem seus próprios dados e testem o comportamento de escalonamento imediatamente. Em última análise, este quadro serve como uma força equalizadora na indústria da IA.

Isto é especialmente crucial porque o alto preço dos modelos de fronteira pode se tornar uma barreira à medida que você dimensiona aplicações de agente que dependem de modelos de raciocínio.

"T² muda fundamentalmente quem constrói modelos de raciocínio fortes," conclui Roberto. "Talvez você não precise de grandes orçamentos de computação para obter raciocínios de última geração. Em vez disso, você precisa de bons dados e de uma alocação inteligente de seu orçamento para treinamento e inferência."

Fonte ==> Cyberseo