O processamento de dados em lote é muito lento para a IA em tempo real: como o Apache Airflow 3.0 de código aberto resolve o desafio com a orquestração de dados orientada por eventos

O processamento de dados em lote é muito lento para a IA em tempo real: como o Apache Airflow 3.0 de código aberto resolve o desafio com a orquestração de dados orientada por eventos

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


Mover dados de diversas fontes para o local certo para uso da IA ​​é uma tarefa desafiadora. É aí que as tecnologias de orquestração de dados como o Apache Airflow se encaixam.

Hoje, a comunidade Apache Airflow sai com sua maior atualização em anos, com a estréia do lançamento 3.0. O novo lançamento marca a primeira atualização da versão principal em quatro anos. O fluxo de ar está ativo, porém, incrementando constantemente na série 2.x, incluindo as atualizações 2.9 e 2.10 em 2024, que tiveram um foco pesado na IA.

Nos últimos anos, os engenheiros de dados adotaram o fluxo de ar Apache como sua ferramenta padrão de fato. O Apache Airflow se estabeleceu como a principal plataforma de orquestração de fluxo de trabalho de código aberto, com mais de 3.000 colaboradores e adoção generalizada em empresas da Fortune 500. Também existem vários serviços comerciais com base na plataforma, incluindo astrônomo Astro, Google Cloud Composer, Flows de trabalho gerenciado pela Amazon para o Apache Airflow (MWAA) e o fluxo de ar gerenciado pela Microsoft Azure Data Factory, entre outros.

À medida que as organizações lutam para coordenar os fluxos de trabalho de dados em sistemas díspares, nuvens e cargas de trabalho cada vez mais de IA, as organizações têm necessidades crescentes. O Apache Airflow 3.0 atende às necessidades críticas de empresas com um redesenho arquitetônico que possa melhorar a maneira como as organizações criam e implantam aplicativos de dados.

“Para mim, o Airflow 3 é um novo começo, é uma base para um conjunto de capacidades muito maior”, disse Vikram Koka, membro do Apache Airflow PMC (Comitê de Gerenciamento de Projetos) e diretor de estratégia do astrônomo, ao VentureBeat em uma entrevista exclusiva. “Este é quase um refator completo com base no que as empresas nos disseram que precisavam para o próximo nível de adoção de missão crítica”.

A complexidade dos dados corporativos mudou as necessidades de orquestração de dados

À medida que as empresas dependem cada vez mais da tomada de decisão orientada a dados, a complexidade dos fluxos de trabalho de dados explodiu. As organizações agora gerenciam pipelines complexos, abrangendo vários ambientes em nuvem, diversas fontes de dados e cargas de trabalho de IA cada vez mais sofisticadas.

O Airflow 3.0 surge como uma solução projetada especificamente para atender a essas necessidades corporativas em evolução. Diferentemente das versões anteriores, essa versão se rompe com um pacote monolítico, introduzindo um modelo de cliente distribuído que fornece flexibilidade e segurança. Esta nova arquitetura permite que as empresas:

  1. Execute tarefas em vários ambientes de nuvem.
  2. Implementar controles de segurança granular.
  3. Apoiar diversas linguagens de programação.
  4. Ativar implantações verdadeiras de várias nuvens.

O suporte de linguagem expandido do fluxo de ar 3.0 também é interessante. Enquanto as versões anteriores eram principalmente centradas em Python, o novo lançamento suporta nativamente várias linguagens de programação.

O Airflow 3.0 está configurado para suportar o Python e seguir o suporte planejado para Java, TypeScript e Rust. Essa abordagem significa que os engenheiros de dados podem escrever tarefas em sua linguagem de programação preferida, reduzindo o atrito no desenvolvimento e integração do fluxo de trabalho.

Recursos orientados a eventos transformam fluxos de trabalho de dados

O fluxo de ar tradicionalmente se destaca no processamento de lote programado, mas as empresas precisam cada vez mais de recursos de processamento de dados em tempo real. O Airflow 3.0 agora suporta essa necessidade.

“Uma mudança importante no fluxo de ar 3 é o que chamamos de agendamento orientado a eventos”, explicou Koka.

Em vez de executar um trabalho de processamento de dados a cada hora, o fluxo de ar agora inicia o trabalho automaticamente quando um arquivo de dados específico é enviado ou quando uma mensagem específica aparecer. Isso pode incluir dados carregados em um balde de armazenamento em nuvem do Amazon S3 ou em uma mensagem de dados de streaming no Apache Kafka.

O recurso de programação orientado a eventos aborda uma lacuna crítica entre as ferramentas tradicionais de ETL (extrair, transformar e carregar) e estruturas de processamento de fluxo, como o Apache Flink ou o Apache Spark Streaming estruturado, permitindo que as organizações usem uma única camada de orquestração para fluxos de trabalho programados e acionados por eventos.

O fluxo de ar acelerará a execução de inferência da IA ​​corporativa e composto ai

A orquestração de dados orientada a eventos também ajudará o fluxo de ar para suportar a rápida execução de inferência.

Como exemplo, Koka detalhou um caso de uso em que a inferência em tempo real é usada para serviços profissionais, como o rastreamento de tempo legal. Nesse cenário, o fluxo de ar pode ser usado para ajudar a coletar dados brutos de fontes como calendários, e -mails e documentos. Um grande modelo de idioma (LLM) pode ser usado para transformar informações não estruturadas em dados estruturados. Outro modelo pré-treinado pode ser usado para analisar os dados de rastreamento de tempo estruturado, determinar se o trabalho é faturável e atribuir códigos e taxas de cobrança apropriados.

Koka se referiu a essa abordagem como um sistema de IA composto – um fluxo de trabalho que coloca diferentes modelos de IA para concluir uma tarefa complexa de maneira eficiente e inteligente. A arquitetura orientada a eventos do Airflow 3.0 torna possível esse tipo de processo de inferência em várias etapas em tempo real em vários casos de uso corporativo.

A IA composta é uma abordagem definida pela primeira vez pelo Centro de Pesquisa de Inteligência Artificial de Berkeley em 2024 e é um pouco diferente da IA ​​Agentic. Koka explicou que a IA Agentic permite a tomada de decisão autônoma de IA, enquanto a IA composta tem fluxos de trabalho predefinidos que são mais previsíveis e confiáveis ​​para casos de uso de negócios.

Jogando bola com fluxo de ar, como os Texas Rangers parecem se beneficiar

Entre os muitos usuários do Airflow está o time de beisebol da Major League do Texas Rangers.

Oliver Dykstra, engenheiro de dados de pilha completa do Texas Rangers Baseball Club, disse a VentureBeat que a equipe usa o Airflow hospedado na plataforma Astro do astrônomo como o ‘Centro de Nerve’ das operações de dados de beisebol. Ele observou que todo o desenvolvimento de jogadores, contratos, análises e, é claro, os dados do jogo são orquestrados através do fluxo de ar.

“Estamos ansiosos para atualizar para o fluxo de ar 3 e seus aprimoramentos para a programação, observabilidade e linhagem de dados orientados a eventos”, afirmou Dykstra. “Como já contamos com o fluxo de ar para gerenciar nossos pipelines críticos de IA/ML, a eficiência e a confiabilidade adicionais do fluxo de ar 3 ajudarão a aumentar a confiança e a resiliência desses produtos de dados em toda a nossa organização”.

O que isso significa para a adoção da IA ​​corporativa

Para os tomadores de decisão técnicos que avaliam a estratégia de orquestração de dados, o Airflow 3.0 oferece benefícios acionáveis ​​que podem ser implementados em fases.

A primeira etapa é avaliar os fluxos de trabalho de dados atuais que se beneficiariam dos novos recursos orientados a eventos. As organizações podem identificar pipelines de dados que atualmente acionam trabalhos programados, mas os gatilhos baseados em eventos podem ser gerenciados com mais eficiência. Essa mudança pode reduzir significativamente a latência de processamento e eliminar as operações de votação desperdiçadas.

Em seguida, os líderes de tecnologia devem avaliar seus ambientes de desenvolvimento para determinar se o novo suporte ao idioma do Airflow pode consolidar ferramentas de orquestração fragmentada. As equipes atualmente mantêm ferramentas de orquestração separadas para diferentes ambientes de idiomas podem começar a planejar uma estratégia de migração para simplificar sua pilha de tecnologia.

Para empresas que lideram o caminho na implementação da IA, o Airflow 3.0 representa um componente crítico de infraestrutura que pode abordar um desafio significativo na adoção da IA: orquestrar fluxos de trabalho de IA complexos e multi-estágios em escala corporativa. A capacidade da plataforma de coordenar sistemas compostos de IA pode ajudar a permitir que as organizações irem além da prova de conceito para a implantação de IA em toda a empresa, com governança, segurança e confiabilidade adequadas.



Fonte ==> Cyberseo

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *