Uma nova startup de inteligência artificial fundada pelos criadores de a biblioteca de visão computacional mais usada do mundo emergiu do sigilo com tecnologia que gera vídeos realistas centrados no ser humano com até cinco minutos de duração – um salto dramático além das capacidades dos rivais, incluindo o OpenAI’s Sora e do Google Eu vejo.
História artesanallançado na terça-feira com US$ 2 milhões em financiamento, está apresentando o Modelo 2.0, um sistema de geração de vídeo que aborda uma das limitações mais significativas que assola a nascente indústria de vídeo de IA: a duração. Enquanto o OpenAI Sora 2 atinge o máximo de 25 segundos e a maioria dos modelos concorrentes gera clipes de 10 segundos ou menos, o sistema CraftStory pode produzir performances de vídeo contínuas e coerentes que duram tanto quanto um típico tutorial do YouTube ou demonstração de produto.
A inovação poderá desbloquear um valor comercial substancial para as empresas que lutam para escalar a produção de vídeo para formação, marketing e educação do cliente – mercados onde breves clips gerados por IA se revelaram inadequados, apesar do seu polimento visual.
"Se você realmente tentar criar um vídeo com um desses sistemas de geração de vídeo, descobrirá que muitas vezes deseja implementar uma certa visão criativa e, independentemente de quão detalhadas sejam as instruções, os sistemas basicamente ignoram uma parte de suas instruções," disse Victor Erukhimov, fundador e CEO da CraftStory, em entrevista exclusiva ao VentureBeat. "Desenvolvemos um sistema que pode gerar vídeos basicamente pelo tempo que você precisar."
Como o processamento paralelo resolve o problema do vídeo de formato longo
O avanço da CraftStory baseia-se no que a empresa descreve como uma arquitetura de difusão paralelizada – uma abordagem fundamentalmente diferente de como os modelos de IA geram vídeo em comparação com os métodos sequenciais empregados pela maioria dos concorrentes.
Os modelos tradicionais de geração de vídeo funcionam executando algoritmos de difusão em volumes tridimensionais cada vez maiores, onde o tempo representa o terceiro eixo. Para gerar um vídeo mais longo, esses modelos requerem redes proporcionalmente maiores, mais dados de treinamento e significativamente mais recursos computacionais.
História artesanal em vez disso, executa vários algoritmos de difusão menores simultaneamente durante toda a duração do vídeo, com restrições bidirecionais conectando-os. "A última parte do vídeo também pode influenciar a parte anterior," Explicou Erukhimov. "E isso é muito importante, porque se você fizer um por um, então um artefato que aparece na primeira parte se propaga para a segunda e depois se acumula."
Em vez de gerar oito segundos e depois juntar segmentos adicionais, o sistema do CraftStory processa todos os cinco minutos simultaneamente por meio de processos de difusão interconectados.
Crucialmente, a CraftStory treinou seu modelo em imagens proprietárias, em vez de depender apenas de vídeos copiados da Internet. A empresa contratou estúdios para filmar atores usando sistemas de câmera de alta taxa de quadros que capturam detalhes nítidos mesmo em elementos de movimento rápido, como dedos – evitando o desfoque de movimento inerente aos clipes padrão de 30 quadros por segundo do YouTube.
"O que mostramos é que você não precisa de muitos dados e não precisa de muito orçamento de treinamento para criar vídeos de alta qualidade," Erukhimov disse. "Você só precisa de dados de alta qualidade."
O Modelo 2.0 atualmente opera como um sistema vídeo-para-vídeo: os usuários carregam uma imagem estática para animar e uma "vídeo de direção" contendo uma pessoa cujos movimentos a IA irá replicar. CraftStory fornece vídeos de direção predefinidos filmados com atores profissionais, que recebem participação nos lucros quando seus dados de movimento são usados, ou os usuários podem enviar suas próprias filmagens.
O sistema gera clipes de 30 segundos em baixa resolução em aproximadamente 15 minutos. Um sistema avançado de sincronização labial sincroniza os movimentos da boca com scripts ou faixas de áudio, enquanto algoritmos de alinhamento de gestos garantem que a linguagem corporal corresponda ao ritmo da fala e ao tom emocional.
Lutando uma batalha de guerra com US$ 2 milhões contra bilhões
O financiamento da CraftStory vem quase inteiramente de André Filevque vendeu sua empresa de software de gerenciamento de projetos Wrike para a Citrix por US$ 2,25 bilhões em 2021 e agora funciona Zencodificadoruma empresa de codificação de IA. O modesto aumento contrasta fortemente com os bilhões que fluem para esforços concorrentes – a OpenAI arrecadou mais de US$ 6 bilhões apenas na sua última rodada de financiamento.
Erukhimov rejeitou a noção de que o capital maciço é um pré-requisito para o sucesso. "Não acredito necessariamente na tese de que a computação é o caminho para o sucesso," ele disse. "Definitivamente ajuda se você tiver computação. Mas se você arrecadar um bilhão de dólares em um PowerPoint, no final, ninguém ficará feliz, nem os fundadores, nem os investidores."
Filev defendeu a abordagem David versus Golias. "Quando você investe em startups, você aposta fundamentalmente nas pessoas," ele disse em uma entrevista ao VentureBeat. "Parafraseando Margaret Mead: nunca subestime o que um pequeno grupo de engenheiros e cientistas atenciosos e comprometidos pode construir."
Ele argumentou que o CraftStory se beneficia de uma estratégia focada. "Os grandes laboratórios estão em uma corrida armamentista para construir modelos de base de vídeo de uso geral," Filev disse. "CraftStory está pegando essa onda e se aprofundando em um formato específico: vídeo longo, envolvente e centrado no ser humano."
Por que a experiência em visão computacional é importante em vídeos generativos de IA
A credibilidade de Erukhimov deriva de suas raízes profundas na visão computacional, e não nas arquiteturas de transformadores que dominaram os avanços recentes da IA. Ele foi um dos primeiros contribuidores para OpenCV — a Biblioteca de Visão Computacional de Código Aberto que se tornou o padrão de fato para aplicações de visão computacional, com mais de 84.000 estrelas no GitHub.
Quando a Intel reduziu seu suporte ao OpenCV em meados dos anos 2000, Erukhimov foi cofundador da Itseez com o objetivo explícito de manter e desenvolver a biblioteca. A empresa expandiu significativamente o OpenCV e se concentrou em sistemas de segurança automotiva antes de a Intel adquiri-lo em 2016.
Filev disse que esse histórico é exatamente o que torna Erukhimov bem posicionado para a geração de vídeo. "O que às vezes as pessoas não percebem é que o vídeo generativo de IA não trata apenas da parte generativa. Trata-se de compreender o movimento, a dinâmica facial, a coerência temporal e como os humanos realmente se movem," Filev disse. "Victor passou sua carreira dominando exatamente esses problemas."
O foco empresarial visa vídeos de treinamento e demonstrações de produtos
Embora grande parte do entusiasmo do público em torno da geração de vídeos com IA tenha se concentrado em ferramentas criativas para os consumidores, a CraftStory está buscando uma estratégia decididamente focada na empresa.
"Definitivamente, estamos pensando mais no B2B do que no consumidor," Erukhimov disse. "Estamos pensando em empresas, especificamente empresas de software, capazes de fazer vídeos legais de treinamento, vídeos de produtos e vídeos de lançamento."
A lógica é simples: treinamento corporativo, tutoriais de produtos e vídeos de educação do cliente geralmente duram vários minutos e exigem qualidade consistente. Um clipe de IA de 10 segundos não pode demonstrar com eficácia como usar software empresarial ou explicar um recurso complexo de um produto.
"Se você precisar de um vídeo mais longo, vá conosco," Erukhimov disse. "Podemos criar até cinco minutos de vídeo consistente e de alta qualidade."
Filev repetiu esta avaliação. "Uma grande lacuna neste mercado é a falta de modelos que possam gerar vídeos consistentes em sequências mais longas – e isso é extremamente importante para uso no mundo real." ele disse. "Se você está criando um comercial para sua empresa, um vídeo de 10 segundos, por melhor que pareça, não é suficiente. Você precisa de 30 segundos, precisa de dois minutos – precisa de mais."
A empresa prevê economia de custos para os clientes. Filev sugeriu que "um pequeno empresário poderia criar em minutos conteúdo que anteriormente custaria US$ 20.000 e levaria dois meses para ser produzido."
A CraftStory também está cortejando agências criativas que produzem conteúdo de vídeo para clientes corporativos, com a proposta de valor centrada em custo e velocidade: as agências podem gravar um ator na câmera e transformar essa filmagem em um vídeo de IA finalizado, em vez de gerenciar filmagens caras de vários dias.
O próximo grande desenvolvimento no roteiro do CraftStory é um modelo de texto para vídeo que permitiria aos usuários gerar conteúdo longo diretamente de scripts. A equipe também está desenvolvendo suporte para cenários de câmeras móveis, incluindo o popular "andar e falar" formato comum em publicidade de alto nível.
Onde CraftStory se encaixa em um cenário competitivo fragmentado
CraftStory entra em um mercado lotado e em rápida evolução. OpenAI’s Sora 2embora ainda não esteja disponível publicamente, gerou um burburinho significativo. do Google Eu vejo modelos estão avançando rapidamente. Pista, Pikae IA de estabilidade todos oferecem ferramentas de geração de vídeo com recursos diferentes.
Erukhimov reconheceu a pressão competitiva, mas enfatizou que CraftStory atende a um nicho distinto focado em vídeos centrados no ser humano. Ele posicionou a inovação rápida e a captura de mercado como a principal estratégia da empresa, em vez de depender de fossos técnicos.
Filev vê o mercado se fragmentando em camadas distintas, com grandes empresas de tecnologia servindo como "Provedores de API de modelos de geração poderosos e de uso geral" enquanto players especializados como CraftStory se concentram em casos de uso específicos. "Se os grandes players estão construindo os motores, a CraftStory está construindo o estúdio de produção e a linha de montagem por cima," ele disse.
O Modelo 2.0 já está disponível em app.craftstory.com/model-2.0, com a empresa oferecendo acesso antecipado a usuários e empresas interessadas em testar a tecnologia. Ainda não se sabe se uma startup com pouco financiamento pode capturar uma participação de mercado significativa contra empresas tradicionais com muitos bolsos, mas Erukhimov está caracteristicamente confiante quanto à oportunidade que tem pela frente.
"O vídeo gerado por IA em breve se tornará a principal forma de as empresas comunicarem suas histórias," ele disse.
Fonte ==> Cyberseo