Sakana apresenta uma nova arquitetura de IA, ‘Máquinas de pensamento contínuo’ para fazer com que os modelos sejam motivados com menos orientação – como cérebros humanos

Sakana apresenta uma nova arquitetura de IA, 'Máquinas de pensamento contínuo' para fazer com que os modelos sejam motivados com menos orientação - como cérebros humanos

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


A startup de inteligência artificial de Tóquio, Sakana, co-fundada pelos ex-cientistas do Google AI, incluindo Llion Jones e David Ha, apresentou um novo tipo de arquitetura de modelo de IA chamada contínua máquinas de pensamento (CTM).

Os CTMs são projetados para inaugurar uma nova era de modelos de idiomas de IA que serão mais flexíveis e capazes de lidar com uma ampla gama de tarefas cognitivas-como resolver trabalhos complexos ou tarefas de navegação sem pistas posicionais ou incorporações espaciais pré-existentes-aproximando-as da maneira como os seres humanos são a razão por meio de problemas não compartilhados.

Em vez de depender de camadas paralelas fixas que processam entradas de uma só vez – como os modelos de transformadores – o CTMS desdobra a computação sobre as etapas de cada unidade de entrada/saída, conhecida como um “neurônio” artificial.

Cada neurônio no modelo mantém uma curta história de sua atividade anterior e usa essa memória para decidir quando ativar novamente.

Esse estado interno adicionado permite que o CTMS ajuste a profundidade e a duração de seu raciocínio dinamicamente, dependendo da complexidade da tarefa. Como tal, cada neurônio é muito mais denso e complexo do que em um modelo de transformador típico.

A startup publicou um artigo no Journal de Acesso Aberto Arxiv, descrevendo seu trabalho, um repositório de microsite e github.

Como os CTMs diferem dos LLMs baseados em transformadores

A maioria dos modelos de idiomas grandes modernos (LLMs) ainda se baseia fundamentalmente na arquitetura “Transformer” descrita no artigo seminal de 2017 do Google Brain Researchers intitulado “Atenção é tudo o que você precisa”.

Esses modelos usam camadas paralelizadas e de profundidade fixa de neurônios artificiais para processar entradas em um único passe-se essas entradas vêm de avisos de usuário no tempo de inferência ou dados rotulados durante o treinamento.

Por outro lado, os CTMs permitem que cada neurônio artificial opere em sua própria linha do tempo interna, tornando as decisões de ativação com base em uma memória de curto prazo de seus estados anteriores. Essas decisões se desenrolam sobre as etapas internas conhecidas como “ticks”, permitindo que o modelo ajuste sua duração de raciocínio dinamicamente.

Essa arquitetura baseada em tempo permite que o CTMS raciocine progressivamente, ajustando quanto tempo e quão profundamente eles calculam-levando um número diferente de ticks com base na complexidade da entrada.

A memória e a sincronização específicas do neurônio ajudam a determinar quando a computação deve continuar-ou parar.

O número de carrapatos muda de acordo com as informações inseridas e pode ser mais ou menos, mesmo que as informações de entrada sejam idênticas, porque cada neurônio está decidindo quantos carrapatos se submetem antes de fornecer uma saída (ou não fornecer um).

Isso representa um afastamento técnico e filosófico do aprendizado profundo convencional, avançando em direção a um modelo mais biologicamente fundamentado. Sakana enquadrou o CTMS como um passo em direção a mais inteligência do cérebro-sistemas que se adaptam ao longo do tempo, processam as informações de maneira flexível e se envolvem em computação interna mais profunda quando necessário.

O objetivo de Sakana é “eventualmente alcançar níveis de competência que rivalizam ou superem os cérebros humanos”.

Usando linhas de tempo personalizadas variáveis ​​para fornecer mais inteligência

O CTM é construído em torno de dois mecanismos principais.

Primeiro, cada neurônio do modelo mantém uma curta “história” ou memória de trabalho de quando ativou e por quê, e usa esse histórico para tomar uma decisão de quando disparar a seguir.

Segundo, sincronização neural – como e quando grupos dos neurônios artificiais de um modelo “fogo” ou informações do processo juntos – podem acontecer organicamente.

Grupos de neurônios decidem quando se acumular com base no alinhamento interno, não nas instruções externas ou na modelagem de recompensa. Esses eventos de sincronização são usados ​​para modular a atenção e produzir saídas – ou seja, a atenção é direcionada para as áreas onde mais neurônios estão disparando.

O modelo não é apenas processamento de dados, é cronometrar que você pensa em corresponder à complexidade da tarefa.

Juntos, esses mecanismos permitem que os CTMs reduzam a carga computacional em tarefas mais simples, enquanto aplica raciocínio mais profundo e prolongado, quando necessário.

Em manifestações que variam de classificação de imagem e resolução de labirinto em 2D até a aprendizagem de reforço, os CTMs mostraram interpretabilidade e adaptabilidade. Suas etapas internas de “pensamento” permitem que os pesquisadores observem como as decisões se formam ao longo do tempo – um nível de transparência raramente visto em outras famílias modelo.

Resultados iniciais: como os CTMs se comparam aos modelos de transformadores em principais benchmarks e tarefas

A máquina de pensamento contínua da Sakana AI não foi projetada para perseguir as pontuações de referência no topo da placa de classificação, mas seus resultados iniciais indicam que seu design biologicamente inspirado não tem o custo da capacidade prática.

No benchmark ImageNet-1k amplamente utilizado, o CTM alcançou 72,47% TOP-1 e 89,89% de precisão de 5%.

Embora isso esteja aquém dos modelos de transformadores de última geração como Vit ou Convnext, ele permanece competitivo-especialmente considerando que a arquitetura do CTM é fundamentalmente diferente e não foi otimizada apenas para desempenho.

O que se destaca mais são os comportamentos da CTM em tarefas seqüenciais e adaptativas. Nos cenários de solução de labirinto, o modelo produz saídas direcionais passo a passo a partir de imagens brutas-sem usar incorporações posicionais, que geralmente são essenciais nos modelos de transformadores. Os traços de atenção visual revelam que os CTMs frequentemente atendem a regiões de imagens em uma sequência humana, como identificar características faciais dos olhos ao nariz à boca.

O modelo também exibe forte calibração: sua confiança estimula intimamente alinhada com a precisão real da previsão. Ao contrário da maioria dos modelos que requerem escala de temperatura ou ajustes post-hoc, os CTMs melhoram a calibração naturalmente, calculando a média das previsões ao longo do tempo à medida que seu raciocínio interno se desenrola.

Essa mistura de raciocínio sequencial, calibração natural e interpretabilidade oferece um trade-off valioso para aplicações onde a confiança e a rastreabilidade são importantes tanto quanto a precisão bruta.

O que é necessário antes que os CTMs estejam prontos para a implantação corporativa e comercial?

Embora os CTMs mostrem promessas substanciais, a arquitetura ainda é experimental e ainda não é otimizada para a implantação comercial. Sakana AI apresenta o modelo como uma plataforma para pesquisas e exploração adicionais, em vez de uma solução corporativa plug-and-play.

Atualmente, o Treining CTMS exige mais recursos do que os modelos de transformadores padrão. Sua estrutura temporal dinâmica expande o espaço do estado, e é necessária uma sintonia cuidadosa para garantir um aprendizado estável e eficiente nas etapas internas do tempo. Além disso, o suporte a depuração e ferramentas ainda está se atualizando-muitas das bibliotecas e perfiladores atuais não são projetados com os modelos de tempo que não dobram.

Ainda assim, Sakana estabeleceu uma base forte para a adoção da comunidade. A implementação completa do CTM é de código aberto no GitHub e inclui scripts de treinamento específicos de domínio, pontos de verificação pré-gravados, utilitários de plotagem e ferramentas de análise. As tarefas suportadas incluem classificação de imagem (ImageNet, CIFAR), navegação 2D de labirinto, Qamnist, computação de paridade, classificação e aprendizado de reforço.

Uma demonstração interativa da Web também permite que os usuários explorem o CTM em ação, observando como sua atenção muda com o tempo durante a inferência – uma maneira convincente de entender o fluxo de raciocínio da arquitetura.

Para que os CTMs atinjam ambientes de produção, é necessário um progresso adicional na otimização, eficiência de hardware e integração com os pipelines de inferência padrão. Mas com código acessível e documentação ativa, a Sakana facilitou que pesquisadores e engenheiros comecem a experimentar o modelo hoje.

O que os líderes da IA ​​corporativa devem saber sobre o CTMS

A arquitetura do CTM ainda está em seus primeiros dias, mas os tomadores de decisão corporativos já devem tomar nota. Sua capacidade de alocar de forma adaptativa de computação, auto-regulação da profundidade do raciocínio e oferecer uma interpretabilidade clara pode ser altamente valiosa nos sistemas de produção que enfrentam complexidade de entrada variável ou requisitos regulamentares rigorosos.

Os engenheiros de IA que gerenciam a implantação do modelo encontrarão valor na inferência com eficiência energética da CTM-especialmente em aplicações em larga escala ou sensíveis à latência.

Enquanto isso, o raciocínio passo a passo da arquitetura desbloqueia a explicação mais rica, permitindo que as organizações rastreem não apenas o que um modelo previu, mas como chegou lá.

Para as equipes de orquestração e MLOPs, o CTMS se integra a componentes familiares, como codificadores baseados em resnet, permitindo incorporação mais suave nos fluxos de trabalho existentes. E os leads de infraestrutura podem usar os ganchos de perfil da arquitetura para alocar melhor recursos e monitorar a dinâmica de desempenho ao longo do tempo.

Os CTMs não estão prontos para substituir Transformers, mas representam uma nova categoria de modelo com novas possibilidades. Para as organizações que priorizam a segurança, a interpretabilidade e a computação adaptativa, a arquitetura merece muita atenção.

Histórico de pesquisa de IA quadriculada de Sakana

Em fevereiro, a Sakana introduziu o engenheiro de AI Cuda, um sistema Agentic AI projetado para automatizar a produção de kernels CUDA altamente otimizados, os conjuntos de instruções que permitem que as GPUs (e outras unidades de processamento de gráficos da NVIDIA (e de outros) ou unidades computacionais (e outros “ou unidades computacionais.

A promessa foi significativa: acelerações de 10x a 100x nas operações de ML. No entanto, logo após o lançamento, os revisores externos descobriram que o sistema estava explorando as fraquezas na caixa de sandbox de avaliação – essencialmente “trapaceando”, ignorando as verificações de correção por meio de uma exploração de memória.

Em um post público, Sakana reconheceu a questão e creditou os membros da comunidade por sinalizar.

Desde então, eles revisaram suas ferramentas de avaliação e perfil de tempo de execução para eliminar brechas semelhantes e estão revisando seus resultados e o trabalho de pesquisa de acordo. O incidente ofereceu um teste do mundo real de um dos valores declarados de Sakana: abraçando a iteração e a transparência em busca de melhores sistemas de IA.

Apostando em mecanismos evolutivos

O ethos fundador da Sakana AI está na fusão da computação evolutiva com o aprendizado de máquina moderno. A empresa acredita que os modelos atuais são muito rígidos – presos em arquiteturas fixas e exigindo reciclagem para novas tarefas.

Por outro lado, Sakana pretende criar modelos que se adaptem em tempo real, exibem comportamentos emergentes e escalem naturalmente através da interação e feedback, assim como os organismos em um ecossistema.

Essa visão já está se manifestando em produtos como o Transformer², um sistema que ajusta os parâmetros LLM em tempo de inferência sem reciclagem, usando truques algébricos como decomposição de valor singular.

Também é evidente em seu compromisso com sistemas de origem aberta, como o cientista da IA-até em meio a controvérsia-demonstrando uma disposição de se envolver com a comunidade de pesquisa mais ampla, não apenas competir com ela.

À medida que os grandes titulares como o OpenAI e o Google dobram os modelos de fundação, Sakana está traçando um curso diferente: sistemas pequenos, dinâmicos e biologicamente inspirados que pensam no tempo, colaboram por design e evoluem através da experiência.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *