Databricks: ‘A análise de PDF para IA de agência ainda não foi resolvida’ – nova ferramenta substitui pipelines multisserviços por função única

Edição - Istoé TECH

Existem muitos dados empresariais presos em documentos PDF. Com certeza, as ferramentas da geração AI têm sido capazes de ingerir e analisar PDFs, mas a precisão, o tempo e o custo têm sido inferiores ao ideal. A nova tecnologia da Databricks pode mudar isso.

A empresa detalhou esta semana seu "ai_parse_document" tecnologia, agora integrada à plataforma Agent Bricks da Databricks. A tecnologia aborda um gargalo crítico na adoção de IA empresarial: aproximadamente 80% do conhecimento empresarial permanece bloqueado em PDFs, relatórios e diagramas que os sistemas de IA lutam para processar e compreender com precisão.

"É uma suposição comum que a análise de PDFs é um problema resolvido, mas na realidade não é," Erich Elsen, principal cientista pesquisador da Databricks, disse ao VentureBeat. "O desafio não é apenas que os documentos não sejam estruturados; é que os PDFs empresariais são inerentemente complexos. Eles misturam conteúdo digital nativo com páginas digitalizadas e fotos de documentos físicos, juntamente com tabelas, gráficos e layouts irregulares, e a maioria das ferramentas existentes não consegue capturar essas informações com precisão."

A complexidade oculta por trás da análise de documentos

Embora o reconhecimento óptico de caracteres (OCR) exista há décadas, Elsen argumenta que a extração de dados estruturados e utilizáveis de documentos empresariais do mundo real permanece fundamentalmente sem solução.

Elementos-chave, como tabelas com células mescladas, legendas de figuras e relações espaciais entre elementos de documentos, são rotineiramente descartados ou mal interpretados pelas ferramentas existentes, tornando os aplicativos de IA downstream, os sistemas de geração aumentada de recuperação (RAG) ou os painéis de inteligência de negócios não confiáveis.

A solução alternativa típica para empresas tem sido empilhar várias ferramentas imperfeitas: um serviço para detecção de layout, outro para OCR, um terceiro para extração de tabelas, bem como APIs adicionais para análise de figuras. Essa abordagem requer meses de engenharia de dados personalizada e manutenção contínua à medida que os formatos dos documentos evoluem.

"Para compensar, as equipes tiveram que empilhar diversas ferramentas imperfeitas ou construir extensos pipelines personalizados, gastando meses em engenharia de dados em vez de inovação." Elsen disse. "ai_parse_document resolve isso extraindo dados completos e estruturados de documentos do mundo real – para que as organizações possam finalmente confiar e consultar dados não estruturados diretamente no Databricks."

Abordagem técnica: treinamento ponta a ponta versus empilhamento de pipeline

Existem vários serviços no mercado hoje para análise de PDFs, incluindo AWS Textract, Google Document AI e Azure Document Intelligence, entre outros. Elsen argumentou que, em vez de apenas ler texto, a ferramenta usa um sistema de componentes modernos de IA treinados de ponta a ponta para extrair contexto estruturado com qualidade de última geração.

A função vai além da extração básica para capturar:

Tabelas preservadas exatamente como aparecem, incluindo células mescladas e estruturas aninhadas
Figuras e diagramas com legendas e descrições geradas por IA
Metadados espaciais e caixas delimitadoras para localização precisa dos elementos
Saídas de imagem opcionais para aplicativos de pesquisa multimodais

Todos os resultados são armazenados diretamente no Catálogo do Databricks Unity como tabelas Delta, o que significa que os documentos analisados se tornam dados estruturados consultáveis sem sair do ambiente do Databricks. Este é um diferencial importante dos serviços em nuvem que exigem a exportação de dados para processamento.

"Através de treinamento centrado em dados e inferência otimizada, alcançamos custos 3 a 5 vezes menores, ao mesmo tempo em que igualamos ou superamos sistemas líderes como Textract, Document AI e Azure Document Intelligence," Elsen disse.

Adoção empresarial precoce nos setores manufatureiro e industrial

Várias grandes empresas já implantaram o ai_parse_document em produção com casos de uso que abrangem a otimização do fluxo de trabalho da ciência de dados, a democratização do processamento de documentos e o desenvolvimento de aplicativos RAG.

Por exemplo, Elsen observou que a Rockwell Automation usa ai_parse_document para reduzir a sobrecarga de configuração para seus cientistas de dados.

"O que antes exigia uma configuração significativa para suportar soluções complexas agora é simplificado, permitindo que suas equipes gastem mais tempo inovando e menos tempo gerenciando infraestrutura." ele disse.

Enquanto isso, a TE Connectivity está usando ai_parse_document para democratizar o processamento de dados não estruturados.

"Anteriormente, a extração de tabelas, texto e metadados de documentos exigia fluxos de trabalho complexos e com muitos códigos," Elsen disse. "Com o Databricks, eles condensaram tudo isso em uma única função SQL, tornando o processamento avançado de documentos acessível a todas as equipes de dados, não apenas aos cientistas de dados."

A Emerson Electric é outra das primeiras a adotar. A empresa está usando ai_parse_document para um caso de uso RAG. Elsen explicou que, ao permitir a análise paralela de documentos diretamente nas tabelas Delta, a Emerson tornou a construção de aplicativos RAG rápida e simples, tudo dentro do ambiente Databricks existente.

O jogo de integração da plataforma

Embora o Databricks tenha uma longa história com código aberto, a tecnologia ai_parse_document é um componente proprietário da plataforma Databricks.

Ao contrário das APIs autônomas de inteligência de documentos, o ai_parse_document está profundamente integrado à plataforma Agent Bricks da Databricks, que é uma coleção de funções de IA e recursos de orquestração para construir agentes de IA de produção.

A função funciona com a infraestrutura de dados mais ampla do Databricks, incluindo:

Pipelines declarativos do Spark: Forneça processamento incremental automático, o que significa que novos documentos que chegam ao SharePoint, S3 ou Azure Data Lake Storage são analisados automaticamente sem orquestração manual.
Catálogo da unidade: Governa permissões, trilhas de auditoria e linhagem de dados para conteúdo analisado exatamente como faz para dados estruturados.
Pesquisa vetorial: Indexa elementos de documentos analisados, incluindo texto, tabelas e figuras com legendas para aplicações RAG multimodais.
Encadeamento de funções de IA: Permite que os desenvolvedores canalizem a saída de ai_parse_document diretamente para ai_extract (extração de entidade), ai_classify (categorização de documentos) e ai_summarize (resumo de conteúdo) em uma única consulta SQL.
Supervisor Multiagente: Coordena agentes de processamento de documentos com outros agentes especializados para fluxos de trabalho complexos.

"A análise é apenas o começo e raramente um fim em si mesma," Elsen disse. "O objetivo é permitir que os clientes encadeiem nossas ai_functions, como ai_extract e ai_classify, juntamente com ai_parse_document para transformar seus documentos em dados e insights acionáveis. Também pretendemos tornar mais fácil transformar um corpus de documentos em um banco de dados de conhecimento para uso em RAG ou outros agentes de recuperação de informação."

O que isso significa para a estratégia empresarial de IA

Para empresas que criam sistemas de agentes de IA, é fundamental compreender como os documentos PDF são realmente usados e compreendidos pelos sistemas.

A abordagem Databricks lança uma nova luz sobre uma questão que muitos poderiam ter considerado um problema resolvido. Ele desafia as expectativas existentes com uma nova arquitetura que pode beneficiar vários tipos de fluxos de trabalho. No entanto, esta é uma capacidade específica da plataforma que requer uma avaliação cuidadosa para organizações que ainda não utilizam Databricks.

Para os decisores técnicos que avaliam as plataformas de agentes de IA, a principal conclusão é que a inteligência documental está a passar de um serviço externo especializado para uma capacidade de plataforma integrada.

Fonte ==> Cyberseo