Thinking Machines mostra uma prévia de conversas de voz e vídeo de IA quase em tempo real com novos ‘modelos de interação’

Edição - Istoé TECH

A IA está deixando a era da "baseado em turnos" bater papo?

No momento, todos nós que usamos modelos de IA regularmente no trabalho ou em nossas vidas pessoais sabemos que o modo básico de interação entre texto, imagens, áudio e vídeo permanece o mesmo: o usuário humano fornece uma entrada, espera entre milissegundos e minutos (ou, em alguns casos, para consultas particularmente difíceis, horas e dias), e o modelo de IA fornece uma saída.

Mas se a IA quiser realmente assumir a carga de trabalhos que exigem interação natural, ela precisará fazer mais do que fornecer esse tipo de "baseado em turnos" interatividade – em última análise, precisará responder de forma mais fluida e natural às entradas humanas, respondendo até mesmo enquanto processa o próximo entrada humana, seja texto ou outro formato.

Essa pelo menos parece ser a afirmação da Thinking Machines, a bem financiada startup de IA fundada no ano passado pela ex-diretora de tecnologia da OpenAI Mira Murati e pelo ex-pesquisador e cofundador da OpenAI John Schulman, entre outros.

Hoje, a empresa anunciou uma prévia da pesquisa do que considera ser "modelos de interação, uma nova classe de sistemas multimodais nativos que trata a interatividade como um cidadão de primeira classe da arquitetura do modelo, em vez de um software externo "aproveitar," obtendo alguns ganhos impressionantes em benchmarks de terceiros e, como resultado, latência reduzida.

No entanto, os modelos ainda não estão disponíveis para o público em geral ou mesmo para empresas – a empresa afirma em seu anúncio no blog: "Nos próximos meses, abriremos uma prévia limitada da pesquisa para coletar feedback, com um lançamento mais amplo ainda este ano."

Processamento simultâneo de entrada/saída ‘Full duplex’

No centro deste anúncio está uma mudança fundamental na forma como a IA percebe o tempo e a presença. Os atuais modelos de fronteira normalmente vivenciam a realidade em um único fio; eles esperam que o usuário termine uma entrada antes de começar o processamento e sua percepção congela enquanto eles geram uma resposta.

Em sua postagem no blog, os pesquisadores da Thinking Machines descreveram o status quo como uma limitação que força os humanos a "contorcerem-se" às interfaces de IA, formulando perguntas como e-mails e agrupando suas ideias.

Para resolver isso "gargalo de colaboração," Thinking Machines se afastou da sequência de tokens alternada padrão.

Em vez disso, eles usam um design multifluxo e microvolta que processa blocos de entrada e saída de 200 ms simultaneamente.

Esse "full-duplex" A arquitetura permite que o modelo ouça, fale e veja em tempo real, permitindo que ele faça backchannel enquanto um usuário fala ou intervém quando percebe uma dica visual – como um usuário escrevendo um bug em um trecho de código ou um amigo entrando em um quadro de vídeo. Tecnicamente, o modelo utiliza fusão precoce sem codificador.

Em vez de depender de codificadores autônomos massivos como o Whisper para áudio, o sistema recebe sinais de áudio brutos como dMel e patches de imagem (40×40) por meio de uma camada de incorporação leve, co-treinando todos os componentes do zero dentro do transformador.

Sistema de modelo duplo

A prévia da pesquisa apresenta TML-Interação-Pequenoum Mistura de especialistas (MoE) de 276 bilhões de parâmetros modelo com 12 bilhões de parâmetros ativos. Como a interação em tempo real exige tempos de resposta quase instantâneos que muitas vezes entram em conflito com o raciocínio profundo, a empresa arquitetou um sistema de duas partes:

O modelo de interação: Permanece em constante intercâmbio com o usuário, gerenciando o diálogo, a presença e o acompanhamento imediato.
O modelo de fundo: Um agente assíncrono que lida com raciocínio sustentado, navegação na web ou chamadas de ferramentas complexas, transmitindo resultados de volta ao modelo de interação para serem integrados naturalmente na conversa.

Essa configuração permite que a IA execute tarefas como tradução ao vivo ou geração de um gráfico de IU enquanto continua a ouvir o feedback do usuário – uma capacidade demonstrada no vídeo de anúncio onde o modelo forneceu tempos típicos de reação humana para várias dicas enquanto gerava simultaneamente um gráfico de barras.

Desempenho impressionante nos principais benchmarks em comparação com modelos de interação rápida de outros laboratórios líderes de IA

Para provar a eficácia desta abordagem, o laboratório utilizou Banco FDum benchmark projetado especificamente para medir a qualidade da interação, em vez de apenas inteligência bruta. Os resultados mostram que TML-Interaction-Small supera significativamente os sistemas em tempo real existentes:

Capacidade de resposta: Alcançou uma latência de tomada de turno de 0,40 segundosem comparação com 0,57s para Gemini-3.1-flash-live e 1,18s para GPT-realtime-2.0 (mínimo).
Qualidade da interação: No banco FD V1.5, marcou 77,8quase dobrando as pontuações de seus principais concorrentes (GPT-realtime-2.0 pontuação mínima de 46,8).
Proatividade Visual: Em testes especializados como RepCount-A (contando repetições físicas em vídeo) e Controle de qualidade de vídeo proativoo modelo das Thinking Machines se envolveu com sucesso com o mundo visual, enquanto outros modelos de fronteira permaneceram em silêncio ou forneceram respostas incorretas.

Métrica	TML-Interação-Pequeno	GPT-tempo real-2.0 (min)	Gemini-3.1-flash-live (min)
Latência(s) de tomada de turnos	0,40	1.18	0,57
Qualidade da interação (média)	77,8	46,8	54,3
IFEval (VoiceBench)	82,1	81,7	67,6
Harmbench (Recusa%)	99,0	99,5	99,0

Um benefício potencialmente enorme para as empresas – assim que os modelos forem disponibilizados

Se disponibilizados ao setor empresarial, os modelos de interação das Thinking Machines representariam uma mudança fundamental na forma como as empresas integram a IA nos seus fluxos de trabalho operacionais.

Um modelo de interação nativo como TML-Interaction-Small permite vários recursos empresariais que são atualmente impossíveis ou altamente frágeis com modelos multimodais padrão:

A IA empresarial atual requer um "vez" ser concluído antes de poder analisar os dados. Em um ambiente de fabricação ou laboratório, um modelo de interação nativo pode monitorar um feed de vídeo e intervir proativamente no momento em que detecta uma violação de segurança ou um desvio de um protocolo – sem esperar que o trabalhador peça feedback.

O sucesso do modelo em benchmarks visuais como RepCount-A (contagem precisa de repetições) e ProactiveVideoQA (responder a perguntas conforme a evidência visual aparece) sugere que ele poderia servir como um auditor em tempo real para tarefas físicas de alto risco.

O principal atrito no atendimento ao cliente baseado em voz é o tempo de 1 a 2 segundos "processamento" atraso comum nas APIs padrão de 2026. O modelo da Thinking Machines atinge uma latência de 0,40 segundos, aproximadamente a velocidade de uma conversa humana natural.

Como ele lida nativamente com fala simultânea, um bot de suporte empresarial poderia ouvir a frustração de um cliente, fornecer "canal traseiro" dicas (como "Eu vejo" ou "mm-hmm") sem interromper o usuário e oferecem tradução ao vivo que parece uma conversa natural, em vez de uma série de gravações desconexas.

Os LLMs padrão não possuem um relógio interno; eles "saber" tempo somente se for fornecido em um prompt de texto. Os modelos de interação são nativamente conscientes do tempo, permitindo-lhes gerenciar processos sensíveis ao tempo, como "Lembre-me de verificar a temperatura a cada 4 minutos" ou "Alerte-me se este processo demorar mais que o anterior". Isto é fundamental para a manutenção industrial e a investigação farmacêutica, onde o tempo é uma variável essencial.

Antecedentes das Máquinas Pensantes

Este lançamento marca o segundo marco importante para Thinking Machines após o lançamento do Tinker em outubro de 2025, uma API gerenciada para ajuste fino de modelos de linguagem que permite que pesquisadores e desenvolvedores controlem seus dados e métodos de treinamento enquanto Thinking Machines lida com a carga de infraestrutura do treinamento distribuído.

A empresa disse que o Tinker suporta modelos de peso aberto pequenos e grandes, incluindo modelos mistos de especialistas, e os primeiros usuários incluíam grupos em Princeton, Stanford, Berkeley e Redwood Research.

No lançamento, no início de 2025, a Thinking Machines se enquadrou como uma empresa de pesquisa e produtos de IA que tentava tornar os sistemas avançados de IA “mais amplamente compreendidos, personalizáveis e geralmente capazes”.

Em julho de 2025, a Thinking Machines disse ter levantado cerca de US$ 2 bilhões em uma avaliação de US$ 12 bilhões em uma rodada liderada por Andreessen Horowitz, com a participação da Nvidia, Accel, ServiceNow, Cisco, AMD e Jane Street, descrita pela WIRED como a maior rodada de financiamento inicial da história.

O Wall Street Journal relatou em agosto de 2025 que o CEO de tecnologia rival, Mark Zuckerberg, abordou Murati sobre a aquisição do Thinking Machines Lab e, depois que ela recusou, Meta perseguiu mais de uma dúzia dos cerca de 50 funcionários da startup.

Em março e abril de 2026, a empresa também se tornou conhecida por suas ambições computacionais: anunciou uma parceria com a Nvidia para implantar pelo menos um gigawatt de sistemas Vera Rubin de próxima geração e, em seguida, expandiu seu relacionamento com o Google Cloud para usar a infraestrutura de hipercomputadores de IA do Google com sistemas Nvidia GB300 para pesquisa de modelos, cargas de trabalho de aprendizagem por reforço, treinamento de modelos de fronteira e Tinker.

Em abril de 2026, o Business Insider informou que a Meta havia contratado sete membros fundadores da Thinking Machines, incluindo Mark Jen e Yinghai Lu, enquanto outro pesquisador da Thinking Machines, Tianyi Zhang, também se mudou para a Meta. O mesmo relatório disse que Joshua Gross, que ajudou a construir o principal produto de ajuste fino da Thinking Machines, Tinker, ingressou no Meta Superintelligence Labs e que a empresa cresceu para cerca de 130 funcionários, apesar das saídas.

No entanto, a Thinking Machines não estava simplesmente perdendo pessoas: ela também contratou o veterano da Meta, Soumith Chintala, criador do PyTorch, como CTO, e adicionou outros talentos técnicos de alto nível, como Neal Wu. O TechCrunch informou separadamente em abril de 2026 que Weiyao Wang, um veterano de oito anos do Meta que trabalhou em sistemas de percepção multimodais, havia ingressado na Thinking Machines, ressaltando que o fluxo de talentos não era unilateral.

A Thinking Machines declarou anteriormente que estava comprometida com "componentes significativos de código aberto" em seus lançamentos para capacitar a comunidade de pesquisa. Não está claro se esses novos modelos de interação se enquadrarão no mesmo espírito e nos mesmos termos de lançamento.

Mas uma coisa é certa: ao tornar a interatividade nativa do modelo, a Thinking Machines acredita que dimensionar um modelo o tornará um colaborador mais inteligente e mais eficaz.

Fonte ==> Cyberseo