A nova técnica Self-Flow do Black Forest Labs torna o treinamento de modelos de IA multimodais 2,8x mais eficiente

Edição - Istoé TECH

Para criar imagens ou vídeos coerentes, modelos generativos de difusão de IA, como Stable Diffusion ou FLUX, normalmente dependem de recursos externos. "professores"— codificadores congelados como CLIP ou DINOv2 — para fornecer a compreensão semântica que eles não conseguiriam aprender sozinhos.

Mas esta confiança teve um custo: uma "gargalo" onde a ampliação do modelo já não produz melhores resultados porque o professor externo atingiu o seu limite.

Hoje, a startup alemã de IA Black Forest Labs (fabricante da série FLUX de modelos de imagem de IA) anunciou o potencial fim desta era de empréstimos acadêmicos com o lançamento do Self-Flow, uma estrutura de correspondência de fluxo auto-supervisionada que permite que os modelos aprendam representação e geração simultaneamente.

Ao integrar um novo mecanismo de agendamento Dual-Timestep, o Black Forest Labs demonstrou que um único modelo pode alcançar resultados de última geração em imagens, vídeo e áudio sem qualquer supervisão externa.

A tecnologia: quebrando o "lacuna semântica"

O problema fundamental do treinamento generativo tradicional é que ele é um "remoção de ruído" tarefa. O modelo vê ruído e é solicitado a encontrar uma imagem; tem muito pouco incentivo para compreender o que é a imagem, apenas o que ela parece.

Para corrigir isso, os pesquisadores já "alinhado" recursos generativos com modelos discriminativos externos. No entanto, o Black Forest Labs argumenta que isto é fundamentalmente falho: estes modelos externos operam frequentemente com objetivos desalinhados e não conseguem generalizar através de diferentes modalidades, como áudio ou robótica.

A nova técnica do Labs, Self-Flow, introduz uma "assimetria de informação" para resolver isso. Usando uma técnica chamada Dual-Timestep Scheduling, o sistema aplica diferentes níveis de ruído a diferentes partes da entrada. O aluno recebe uma versão fortemente corrompida dos dados, enquanto o professor – uma versão de média móvel exponencial (EMA) do próprio modelo – vê um "limpador" versão dos mesmos dados.

O aluno é então encarregado não apenas de gerar o resultado final, mas de prever qual será o resultado final. "limpador" o eu está vendo – um processo de autodestilação em que o professor está na camada 20 e o aluno na camada 8. Isso "Passe duplo" abordagem força o modelo a desenvolver uma compreensão semântica interna profunda, ensinando-se efetivamente a ver enquanto aprende a criar.

Implicações do produto: mais rápido, mais nítido e multimodal

Os resultados práticos desta mudança são nítidos. De acordo com o artigo de pesquisa, o Self-Flow converge aproximadamente 2,8x mais rápido do que o método REpresentation Alignment (REPA), o atual padrão da indústria para alinhamento de recursos. Talvez o mais importante seja que não estagna; à medida que a computação e os parâmetros aumentam, o Self-Flow continua a melhorar, enquanto os métodos mais antigos mostram retornos decrescentes.

O salto na eficiência do treinamento é melhor compreendido através das lentes das etapas computacionais brutas: embora o padrão "baunilha" o treinamento tradicionalmente requer 7 milhões de passos para atingir um nível de desempenho básico, a REPA encurtou essa jornada para apenas 400.000 passos, representando uma aceleração de 17,5x.

A estrutura Self-Flow do Black Forest Labs leva essa fronteira ainda mais longe, operando 2,8x mais rápido que o REPA para atingir o mesmo marco de desempenho em aproximadamente 143.000 etapas.

No seu conjunto, esta evolução representa uma redução de quase 50 vezes no número total de etapas de formação necessárias para alcançar resultados de alta qualidade, transformando efetivamente o que antes era uma enorme necessidade de recursos num processo significativamente mais acessível e simplificado.

O Black Forest Labs apresentou esses ganhos por meio de um modelo multimodal de parâmetros 4B. Treinado em um enorme conjunto de dados de 200 milhões de imagens, 6 milhões de vídeos e 2 milhões de pares de áudio e vídeo, o modelo demonstrou saltos significativos em três áreas principais:

Tipografia e renderização de texto: Um dos mais persistentes "diz" das imagens de IA tem texto distorcido. O Self-Flow supera significativamente a correspondência de fluxo vanilla na renderização de sinais e rótulos complexos e legíveis, como um sinal de néon com a ortografia correta "FLUX é multimodal".
Consistência temporal: Na geração de vídeo, o Self-Flow elimina muitos dos "alucinado" artefatos comuns nos modelos atuais, como membros que desaparecem espontaneamente durante o movimento.
Síntese conjunta de vídeo-áudio: Como o modelo aprende representações nativamente, ele pode gerar vídeo e áudio sincronizados a partir de um único prompt, tarefa onde recursos externos "emprestado" as representações geralmente falham porque um codificador de imagem não entende o som.

Em termos de métricas quantitativas, o Self-Flow alcançou resultados superiores em relação às linhas de base competitivas. No Image FID, o modelo pontuou 3,61 em comparação com 3,92 do REPA. Para vídeo (FVD), atingiu 47,81 em comparação com 49,59 do REPA, e em áudio (FAD), marcou 145,65 contra 148,87 da linha de base vanilla.

Dos pixels ao planejamento: o caminho para os modelos mundiais

O anúncio termina com um olhar para modelos mundiais – IA que não apenas gera imagens bonitas, mas compreende a física e a lógica subjacentes de uma cena para planejamento e robótica.

Ao ajustar uma versão de parâmetros de 675M do Self-Flow no conjunto de dados de robótica RT-1, os pesquisadores alcançaram taxas de sucesso significativamente mais altas em tarefas complexas de várias etapas no simulador SIMPLER. Embora a correspondência de fluxo padrão enfrentasse problemas complexos "Abrir e colocar" tarefas, muitas vezes falhando totalmente, o modelo Self-Flow manteve uma taxa de sucesso constante, sugerindo que suas representações internas são robustas o suficiente para o raciocínio visual do mundo real.

Detalhes de implementação e engenharia

Para pesquisadores que buscam verificar essas afirmações, o Black Forest Labs lançou um conjunto de inferência no GitHub especificamente para a geração ImageNet 256×256. O projeto, escrito principalmente em Python, fornece a arquitetura do modelo SelfFlowPerTokenDiT baseada em SiT-XL/2.

Os engenheiros podem utilizar o script sample.py fornecido para gerar 50.000 imagens para avaliação FID padrão. O repositório destaca que uma modificação arquitetônica importante nesta implementação é o condicionamento de timestep por token, que permite que cada token em uma sequência seja condicionado em seu timestep de ruído específico. Durante o treinamento, o modelo utilizou precisão mista BFloat16 e o otimizador AdamW com recorte de gradiente para manter a estabilidade.

Licenciamento e disponibilidade

O Black Forest Labs disponibilizou o artigo de pesquisa e o código de inferência oficial via GitHub e seu portal de pesquisa. Embora esta seja atualmente uma prévia da pesquisa, o histórico da empresa com a família de modelos FLUX sugere que essas inovações provavelmente encontrarão seu caminho em suas APIs comerciais e ofertas de pesos abertos em um futuro próximo.

Para os desenvolvedores, abandonar os codificadores externos é uma grande vitória em termos de eficiência. Ele elimina a necessidade de gerenciar modelos pesados e separados, como o DINOv2 durante o treinamento, simplificando a pilha e permitindo um treinamento mais especializado e específico de domínio que não depende de outra pessoa. "congelado" compreensão do mundo.

Conclusões para tomadores de decisões técnicas empresariais e adotantes

Para as empresas, a chegada do Self-Flow representa uma mudança significativa na análise de custo-benefício do desenvolvimento de IA proprietária.

Embora os beneficiários mais imediatos sejam organizações que treinam modelos de grande escala a partir do zero, a investigação demonstra que a tecnologia é igualmente potente para o ajuste fino de alta resolução. Como o método converge quase três vezes mais rápido que os padrões atuais, as empresas podem obter resultados de última geração com uma fração do orçamento de computação tradicional.

Essa eficiência torna viável para as empresas irem além de soluções genéricas prontas para uso e desenvolverem modelos especializados que estejam profundamente alinhados com seus domínios de dados específicos, seja isso envolvendo imagens médicas de nicho ou dados de sensores industriais proprietários.

As aplicações práticas desta tecnologia estendem-se a setores industriais de alto risco, nomeadamente robótica e sistemas autónomos. Ao aproveitar a capacidade da estrutura de aprender "modelos mundiais," as empresas de manufatura e logística podem desenvolver modelos de visão-linguagem-ação (VLA) que possuem uma compreensão superior do espaço físico e raciocínio sequencial.

Em testes de simulação, o Self-Flow permitiu que controladores robóticos executassem com sucesso tarefas complexas e multiobjetos – como abrir uma gaveta para colocar um item dentro – onde os modelos generativos tradicionais falhavam. Isto sugere que a tecnologia é uma ferramenta fundamental para qualquer empresa que pretenda preencher a lacuna entre a geração de conteúdo digital e a automação física do mundo real.

Além dos ganhos de desempenho, o Self-Flow oferece às empresas uma vantagem estratégica ao simplificar a infraestrutura de IA subjacente. A maioria dos sistemas generativos atuais são "Frankenstein" modelos que exigem codificadores semânticos externos complexos, muitas vezes de propriedade e licenciados por terceiros.

Ao unificar representação e geração em uma única arquitetura, o Self-Flow permite que as empresas eliminem essas dependências externas, reduzindo a dívida técnica e eliminando o "gargalos" associado ao escalonamento de professores terceirizados. Essa natureza autônoma garante que, à medida que uma empresa dimensiona sua computação e seus dados, o desempenho do modelo seja dimensionado de forma previsível e sincronizada, proporcionando um ROI mais claro para investimentos em IA de longo prazo.

Fonte ==> Cyberseo