Durante grande parte de 2025, a fronteira dos modelos de linguagem de peso aberto foi definida não em Silicon Valley ou na cidade de Nova Iorque, mas em Pequim e Hangzhou.
Laboratórios de pesquisa chineses, incluindo Qwen, DeepSeek, Moonshot e Baidu da Alibaba, definiram rapidamente o ritmo no desenvolvimento de modelos abertos de mistura de especialistas (MoE) em grande escala – muitas vezes com licenças permissivas e desempenho de referência líder. Embora a OpenAI também tenha lançado seu próprio LLM de código aberto e de uso geral neste verão – gpt-oss-20B e 120B – a aceitação foi retardada por tantas alternativas com desempenho igual ou melhor.
Agora, uma pequena empresa norte-americana está a reagir.
Hoje, Arcee AI anunciou o lançamento do Trinity Mini e do Trinity Nano Preview, os dois primeiros modelos de sua nova família “Trinity” – um conjunto de modelos MoE de peso aberto totalmente treinado nos Estados Unidos.
Os usuários podem experimentar o primeiro diretamente em formato de chatbot no novo site da Acree, chat.arcee.ai, e os desenvolvedores podem baixar o código para ambos os modelos no Hugging Face e executá-los eles mesmos, bem como modificá-los/afinar ao seu gosto — tudo de graça sob uma licença Apache 2.0 empresarial.
Embora pequenos em comparação com os maiores modelos de fronteira, estes lançamentos representam uma rara tentativa de uma startup norte-americana de construir modelos de peso aberto ponta a ponta em escala – treinados do zero, em infraestrutura americana, usando um pipeline de conjunto de dados com curadoria dos EUA.
"Estou experimentando uma combinação de extremo orgulho pela minha equipe e uma exaustão paralisante, então estou lutando para colocar em palavras o quanto estou animado para lançar esses modelos," escreveu o diretor de tecnologia (CTO) da Arcee, Lucas Atkins, em uma postagem na rede social X (antigo Twitter). "Especialmente Mini."
Um terceiro modelo, Trinity Large, já está em treinamento: um modelo de parâmetros de 420B com 13B de parâmetros ativos por token, com lançamento previsto para janeiro de 2026.
“Queremos acrescentar algo que estava faltando nesse quadro”, escreveu Atkins no manifesto de lançamento do Trinity publicado no site da Arcee. “Uma família séria de modelos abertos, treinada de ponta a ponta na América… que empresas e desenvolvedores podem realmente possuir.”
Dos pequenos modelos à ambição em escala
O projeto Trinity marca um ponto de viragem para Arcee AI, que até agora era conhecido pelos seus modelos compactos e focados na empresa. A empresa arrecadou US$ 29,5 milhões em financiamento até o momento, incluindo uma Série A de US$ 24 milhões em 2024 liderada pela Emergence Capital, e seus lançamentos anteriores incluem AFM-4.5B, um modelo compacto ajustado por instrução lançado em meados de 2025, e SuperNova, um modelo anterior de acompanhamento de instruções com parâmetros de 70B projetado para implantação empresarial em VPC.
Ambos tinham como objetivo resolver questões regulatórias e de custos que atormentavam a adoção de LLM proprietário na empresa.
Com o Trinity, a Arcee almeja mais alto: não apenas ajuste de instrução ou pós-treinamento, mas pré-treinamento full-stack de modelos básicos de peso aberto – construídos para raciocínio de longo contexto, adaptação de dados sintéticos e integração futura com sistemas de retreinamento ao vivo.
Originalmente concebidos como um trampolim para o Trinity Large, tanto o Mini quanto o Nano surgiram das primeiras experiências com modelagem esparsa e rapidamente se tornaram alvos de produção.
Destaques técnicos
Trinity Mini é um modelo de parâmetros de 26B com 3B ativos por token, projetado para raciocínio de alto rendimento, chamada de função e uso de ferramentas. Trinity Nano Preview é um modelo de parâmetros de 6B com aproximadamente 800 milhões de parâmetros ativos não incorporados – um modelo mais experimental, focado em bate-papo, com uma personalidade mais forte, mas com menor robustez de raciocínio.
Ambos os modelos usam a nova arquitetura Attention-First Mixture-of-Experts (AFMoE) da Arcee, um design MoE personalizado que combina esparsidade global, atenção local/global e técnicas de atenção fechada.
Inspirado pelos avanços recentes do DeepSeek e Qwen, o AFMoE se afasta do MoE tradicional ao integrar fortemente o roteamento especializado esparso com uma pilha de atenção aprimorada – incluindo atenção de consulta agrupada, atenção fechada e um padrão local/global que melhora o raciocínio de contexto longo.
Pense num modelo típico do MoE como um call center com 128 agentes especializados (chamados “especialistas”) – mas apenas alguns são consultados para cada chamada, dependendo da questão. Isso economiza tempo e energia, já que nem todo especialista precisa avaliar.
O que torna o AFMoE diferente é como ele decide para quais agentes ligar e como combina suas respostas. A maioria dos modelos do MoE utiliza uma abordagem padrão que seleciona especialistas com base numa classificação simples.
O AFMoE, por outro lado, usa um método mais suave (chamado roteamento sigmóide) que é mais como ajustar um botão de volume do que apertar um botão – permitindo que o modelo combine múltiplas perspectivas com mais elegância.
A parte “atenção em primeiro lugar” significa que o modelo se concentra fortemente em como presta atenção às diferentes partes da conversa. Imagine ler um romance e lembrar algumas partes com mais clareza do que outras com base na importância, atualidade ou impacto emocional – isso é atenção. O AFMoE melhora isso combinando a atenção local (focando no que acabou de ser dito) com a atenção global (lembrando os pontos-chave anteriores), usando um ritmo que mantém as coisas equilibradas.
Por fim, o AFMoE introduz algo chamado atenção bloqueada, que atua como um controle de volume em cada saída de atenção – ajudando o modelo a enfatizar ou atenuar diferentes informações conforme necessário, como ajustar o quanto você se importa com cada voz em uma discussão em grupo.
Tudo isso foi projetado para tornar o modelo mais estável durante o treinamento e mais eficiente em escala – para que ele possa compreender conversas mais longas, raciocinar com mais clareza e funcionar mais rápido sem precisar de grandes recursos computacionais.
Ao contrário de muitas implementações de MoE existentes, o AFMoE enfatiza a estabilidade em profundidade e a eficiência do treinamento, usando técnicas como roteamento baseado em sigmóide sem perda auxiliar e normalização em escala de profundidade para suportar escalonamento sem divergência.
Capacidades do modelo
Trinity Mini adota uma arquitetura MoE com 128 especialistas, 8 ativos por token e 1 especialista compartilhado sempre ativo. As janelas de contexto chegam a 131.072 tokens, dependendo do provedor.
Os benchmarks mostram o desempenho competitivo do Trinity Mini com modelos maiores em tarefas de raciocínio, incluindo desempenho superior ao gpt-oss no benchmark SimpleQA (testa a recordação factual e se o modelo admite incerteza), MMLU (tiro zero, medindo amplo conhecimento acadêmico e raciocínio em muitos assuntos sem exemplos) e BFCL V3 (avalia chamada de função em várias etapas e uso de ferramentas no mundo real):
-
MMLU (disparo zero): 84,95
-
Matemática-500: 92,10
-
GPQA-Diamante: 58,55
-
BFCLV3: 59,67
Os números de latência e taxa de transferência em provedores como Together e Clarifai mostram mais de 200 tokens por segundo de taxa de transferência com latência E2E inferior a três segundos, tornando o Trinity Mini viável para aplicativos interativos e pipelines de agentes.
Trinity Nano, embora menor e não tão estável em casos extremos, demonstra viabilidade de arquitetura MoE esparsa com menos de 1 bilhão de parâmetros ativos por token.
Acesso, preços e integração de ecossistemas
Ambos os modelos Trinity são lançados sob o regime permissivo, favorável às empresas, Licença Apache 2.0permitindo uso comercial e de pesquisa irrestrito. Trinity Mini está disponível através de:
-
Abraçando o rosto
-
OpenRouter
-
chat.arcee.ai
Preços da API para Trinity Mini via OpenRouter:
-
US$ 0,045 por milhão de tokens de entrada
-
US$ 0,15 por milhão de tokens de saída
-
Um nível gratuito está disponível por tempo limitado no OpenRouter
O modelo já está integrado a aplicativos como Benchable.ai, Open WebUI e SillyTavern. É compatível com Hugging Face Transformers, VLLM, LM Studio e llama.cpp.
Dados sem compromisso: o papel da DatologyAI
Central para a abordagem da Arcee é o controle sobre os dados de treinamento – um nítido contraste com muitos modelos abertos treinados em conjuntos de dados extraídos da web ou legalmente ambíguos. É aí que a DatologyAI, uma startup de curadoria de dados cofundada pelo ex-pesquisador da Meta e DeepMind, Ari Morcos, desempenha um papel crítico.
A plataforma da DatologyAI automatiza a filtragem de dados, desduplicação e melhoria de qualidade em todas as modalidades, garantindo que o corpus de treinamento da Arcee evite as armadilhas de conteúdo barulhento, tendencioso ou com risco de direitos autorais.
Para a Trinity, a DatologyAI ajudou a construir um currículo de tokens de 10 trilhões organizado em três fases: dados gerais 7T, texto de alta qualidade 1,8T e material pesado STEM 1,2T, incluindo matemática e código.
Esta é a mesma parceria que impulsionou o AFM-4.5B da Arcee – mas aumentou significativamente em tamanho e complexidade. De acordo com Arcee, foram as ferramentas de filtragem e classificação de dados da Datology que permitiram que o Trinity escalasse de forma limpa, ao mesmo tempo que melhorava o desempenho em tarefas como matemática, controle de qualidade e uso de ferramentas de agente.
A contribuição da Datologia também se estende à geração de dados sintéticos. Para a Trinity Large, a empresa produziu mais de 10 trilhões de tokens sintéticos – emparelhados com tokens da web com curadoria de 10T – para formar um corpus de treinamento de tokens de 20T para o modelo em escala real agora em andamento.
Construindo a infraestrutura para competir: Prime Intellect
A capacidade da Arcee de executar treinamento em larga escala nos EUA também se deve ao seu parceiro de infraestrutura, Prime Intellect. A startup, fundada no início de 2024, começou com a missão de democratizar o acesso à computação de IA, construindo um mercado de GPU descentralizado e uma pilha de treinamento.
Embora a Prime Intellect tenha ganhado as manchetes com a sua formação distribuída do INTELLECT-1 – um modelo de parâmetros 10B treinado por colaboradores em cinco países – o seu trabalho mais recente, incluindo o 106B INTELLECT-3, reconhece as compensações de escala: a formação distribuída funciona, mas para modelos 100B+, a infraestrutura centralizada é ainda mais eficiente.
Para Trinity Mini e Nano, a Prime Intellect forneceu a pilha de orquestração, o tempo de execução TorchTitan modificado e o ambiente de computação física: 512 GPUs H200 em um pipeline bf16 personalizado, executando paralelismo HSDP de alta eficiência. Ele também hospeda o cluster de GPU 2048 B300 usado para treinar Trinity Large.
A colaboração mostra a diferença entre branding e execução. Embora o objetivo de longo prazo da Prime Intellect continue sendo a computação descentralizada, seu valor de curto prazo para Arcee reside na infraestrutura de treinamento eficiente e transparente – infraestrutura que permanece sob jurisdição dos EUA, com procedência conhecida e controles de segurança.
Uma aposta estratégica na soberania modelo
O impulso da Arcee para o pré-treinamento completo reflete uma tese mais ampla: que o futuro da IA empresarial dependerá do domínio do ciclo de treinamento – e não apenas do ajuste fino. À medida que os sistemas evoluem para se adaptarem ao uso em tempo real e interagirem com as ferramentas de forma autônoma, a conformidade e o controle sobre os objetivos do treinamento serão tão importantes quanto o desempenho.
“À medida que as aplicações se tornam mais ambiciosas, a fronteira entre ‘modelo’ e ‘produto’ continua mudando”, observou Atkins no manifesto Trinity da Arcee. “Para construir esse tipo de software, você precisa controlar os pesos e o pipeline de treinamento, não apenas a camada de instrução.”
Este enquadramento diferencia o Trinity de outros esforços de peso aberto. Em vez de corrigir o modelo básico de outra pessoa, a Arcee construiu o seu próprio – dos dados à implantação, da infraestrutura ao otimizador – ao lado de parceiros que compartilham essa visão de abertura e soberania.
Olhando para o Futuro: Trinity Grande
O treinamento está em andamento para o Trinity Large, o modelo MoE de parâmetro 420B da Arcee, usando a mesma arquitetura afmoe dimensionada para um conjunto maior de especialistas.
O conjunto de dados inclui tokens 20T, divididos igualmente entre dados sintéticos do DatologyAI e dados WB selecionados.
O modelo deverá ser lançado no próximo mês, em janeiro de 2026, com um relatório técnico completo a seguir logo em seguida.
Se for bem sucedido, tornaria o Trinity Large num dos únicos modelos à escala de fronteira totalmente abertos e treinados nos EUA – posicionando Arcee como um actor sério no ecossistema aberto numa altura em que a maioria dos esforços americanos de LLM estão fechados ou baseados em fundações não americanas.
Um novo compromisso com o código aberto dos EUA
Num cenário em que os modelos abertos mais ambiciosos são cada vez mais moldados por laboratórios de investigação chineses, o lançamento do Trinity da Arcee sinaliza uma rara mudança de direcção: uma tentativa de recuperar terreno para o desenvolvimento de modelos transparentes e controlados pelos EUA.
Apoiada por parceiros especializados em dados e infraestruturas, e construída de raiz para adaptabilidade a longo prazo, Trinity é uma declaração ousada sobre o futuro do desenvolvimento da IA nos EUA, mostrando que pequenas empresas menos conhecidas ainda podem ultrapassar os limites e inovar de forma aberta, mesmo quando a indústria é cada vez mais produtiva e comoditizada.
O que resta saber é se a Trinity Large pode igualar as capacidades dos seus pares mais bem financiados. Mas com o Mini e o Nano já em uso, e uma forte base arquitetónica implementada, Arcee pode já estar a provar a sua tese central: que a soberania do modelo, e não apenas o tamanho do modelo, definirá a próxima era da IA.
Fonte ==> Cyberseo