A codificação de IA transforma a engenharia de dados: como a biblioteca Python de código aberto do dltHub ajuda os desenvolvedores a criar pipelines de dados para IA em minutos

Edição - Istoé TECH

Uma revolução silenciosa está remodelando a engenharia de dados empresariais. Os desenvolvedores Python estão construindo pipelines de dados de produção em minutos, usando ferramentas que exigiriam equipes especializadas inteiras apenas alguns meses atrás.

O catalisador é dltuma biblioteca Python de código aberto que automatiza tarefas complexas de engenharia de dados. A ferramenta atingiu 3 milhões de downloads mensais e potencializa fluxos de trabalho de dados para mais de 5.000 empresas em setores regulamentados, incluindo finanças, saúde e manufatura. Essa tecnologia está recebendo outro sólido voto de confiança hoje, já que a dltHub, a empresa com sede em Berlim por trás da biblioteca dlt de código aberto, está levantando US$ 8 milhões em financiamento inicial liderado pela Bessemer Venture Partners.

O que torna isso significativo não são apenas os números de adoção. É assim que os desenvolvedores estão usando a ferramenta em combinação com assistentes de codificação de IA para realizar tarefas que antes exigiam engenheiros de infraestrutura, especialistas em DevOps e pessoal de plantão.

A empresa está construindo uma plataforma hospedada em nuvem que amplia sua biblioteca de código aberto em uma solução completa de ponta a ponta. A plataforma permitirá que os desenvolvedores implantem pipelines, transformações e notebooks com um único comando, sem se preocupar com infraestrutura. Isso representa uma mudança fundamental da engenharia de dados que exige equipes especializadas para se tornar acessível a qualquer desenvolvedor Python.

"Qualquer desenvolvedor Python deve ser capaz de aproximar seus usuários empresariais de dados novos e confiáveis," Matthaus Krzykowski, cofundador e CEO da dltHub, disse ao VentureBeat em uma entrevista exclusiva. "Nossa missão é tornar a engenharia de dados tão acessível, colaborativa e simples quanto escrever o próprio Python."

Do SQL à engenharia de dados nativa do Python

O problema que a empresa decidiu resolver surgiu de frustrações do mundo real.

Um conjunto central de frustrações vem de um conflito fundamental entre a forma como diferentes gerações de desenvolvedores trabalham com dados. Krzykowski observou que há uma geração de desenvolvedores baseados em SQL e na tecnologia de banco de dados relacional. Por outro lado, há uma geração de desenvolvedores construindo agentes de IA com Python.

Esta divisão reflecte desafios técnicos mais profundos. A engenharia de dados baseada em SQL prende as equipes em plataformas específicas e requer amplo conhecimento de infraestrutura. Os desenvolvedores Python que trabalham com IA precisam de ferramentas leves e independentes de plataforma que funcionem em notebooks e se integrem aos assistentes de codificação LLM.

A biblioteca dlt muda essa equação automatizando tarefas complexas de engenharia de dados em código Python simples.

"Se você sabe o que é uma função em Python, o que é uma lista, uma fonte e um recurso, então você pode escrever este código muito declarativo e muito simples," Krzykowski explicou.

O principal avanço técnico aborda a evolução do esquema automaticamente. Quando as fontes de dados alteram seu formato de saída, os pipelines tradicionais são interrompidos.

"DLT possui mecanismos para resolver automaticamente esses problemas," Thierry Jean, engenheiro fundador da dltHub, disse ao VentureBeat. "Portanto, ele enviará dados, e você pode dizer, alertar-me se as coisas mudarem no upstream ou apenas torná-lo flexível o suficiente e alterar os dados e o destino de forma a acomodar essas coisas."

Experiência de desenvolvedor no mundo real

Hoyt Emerson, consultor de dados e criador de conteúdo da The Full Data Stack, adotou recentemente a ferramenta para um trabalho onde tinha um desafio a resolver.

Ele precisava migrar dados do Google Cloud Storage para vários destinos, incluindo Amazon S3 e um data warehouse. As abordagens tradicionais exigiriam conhecimento específico da plataforma para cada destino. Emerson disse ao VentureBeat que o que ele realmente queria era uma maneira muito mais leve e independente de plataforma para enviar dados de um local para outro.

"Foi quando o DLT me deu um momento aha," Emerson disse.

Ele concluiu todo o pipeline em cinco minutos usando a documentação da biblioteca, o que facilitou a instalação e execução rápida e sem problemas.

O processo fica ainda mais poderoso quando combinado com assistentes de codificação de IA. Emerson observou que está usando princípios de codificação de IA de agência e percebeu que a documentação dlt poderia ser enviada como contexto para um LLM para acelerar e automatizar seu trabalho de dados. Com a documentação como contexto, a Emerson conseguiu criar modelos reutilizáveis para projetos futuros e usou assistentes de IA para gerar configurações de implantação.

"É extremamente amigável ao LLM porque está muito bem documentado," ele disse.

O padrão de desenvolvimento LLM-Nativo

Esta combinação de ferramentas bem documentadas e assistência de IA representa um novo padrão de desenvolvimento. A empresa otimizou especificamente para o que eles chamam "Modo YOLO" desenvolvimento onde os desenvolvedores copiam mensagens de erro e as colam em assistentes de codificação de IA.

"Muitas dessas pessoas estão literalmente apenas copiando e colando mensagens de erro e tentando os editores de código descobrir isso," Krzykowski disse. A empresa leva esse comportamento a sério o suficiente para corrigir problemas especificamente para fluxos de trabalho assistidos por IA.

Os resultados demonstram a eficácia da abordagem. Somente em setembro, os usuários criaram mais de 50 mil conectores personalizados usando a biblioteca. Isto representa um aumento de 20 vezes desde Janeiro, impulsionado em grande parte pelo desenvolvimento assistido pelo LLM.

Arquitetura técnica para escala empresarial

A filosofia de design do dlt prioriza a interoperabilidade em vez do aprisionamento da plataforma. A ferramenta pode ser implantada em qualquer lugar, desde AWS Lambda até pilhas de dados corporativos existentes. Integra-se com plataformas como Snowflake, mantendo a flexibilidade para trabalhar com qualquer destino.

"Sempre acreditamos que o DLT precisa ser interoperável e modular," Krzykowski explicou. "Ele pode ser implantado em qualquer lugar. Pode ser no Lambda. Freqüentemente, torna-se parte das infraestruturas de dados de outras pessoas."

As principais capacidades técnicas incluem:

Evolução Automática do Esquema: lida com alterações de dados upstream sem interromper pipelines ou exigir intervenção manual.
Carregamento Incremental: processa apenas registros novos ou alterados, reduzindo custos e sobrecarga computacional.
Implantação independente de plataforma: funciona em provedores de nuvem e infraestrutura local sem modificação.
Documentação otimizada para LLM: Estruturado especificamente para consumo de assistente de IA, permitindo rápida resolução de problemas e geração de modelos.

A plataforma atualmente oferece suporte a mais de 4.600 fontes de dados de API REST com expansão contínua impulsionada por conectores gerados pelo usuário.

Competindo contra gigantes do ETL com uma abordagem que prioriza o código

O cenário da engenharia de dados se divide em campos distintos, cada um atendendo a diferentes necessidades empresariais e preferências dos desenvolvedores.

Plataformas ETL tradicionais como Informática e Talend dominam ambientes empresariais com ferramentas baseadas em GUI que exigem treinamento especializado, mas oferecem recursos de governança abrangentes.

Plataformas SaaS mais recentes, como Fivetran ganharam força ao enfatizar conectores pré-construídos e infraestrutura gerenciada, reduzindo a sobrecarga operacional, mas criando dependência do fornecedor.

A biblioteca dlt de código aberto ocupa uma posição fundamentalmente diferente como infraestrutura nativa de LLM que prioriza o código, que os desenvolvedores podem estender e personalizar.

Este posicionamento reflete a mudança mais ampla em direção ao que a indústria chama de pilha de dados combináveis, onde as empresas constroem infraestrutura a partir de componentes interoperáveis, em vez de plataformas monolíticas.

Mais importante ainda, a intersecção com a IA cria novas dinâmicas de mercado.

"Os LLMs não estão substituindo engenheiros de dados," Krzykowski disse. "Mas expandem radicalmente o seu alcance e produtividade."

O que isso significa para os líderes de dados corporativos

Para as empresas que procuram liderar operações orientadas por IA, este desenvolvimento representa uma oportunidade para repensar fundamentalmente as estratégias de engenharia de dados.

As vantagens táticas imediatas são claras. As organizações podem aproveitar os desenvolvedores Python existentes em vez de contratar equipes especializadas de engenharia de dados. As organizações que adaptam suas ferramentas e abordagens de caminhada para aproveitar essa tendência podem encontrar vantagens significativas em termos de custo e agilidade em relação aos concorrentes que ainda dependem da engenharia de dados tradicional e com uso intensivo de equipes.

A questão não é se esta mudança em direção à engenharia de dados democratizada ocorrerá. É a rapidez com que as empresas se adaptam para capitalizar isso.

Fonte ==> Cyberseo