Data Processing Pipeline

Fluxo de Dados

Arquitetura completa do pipeline de processamento — da ingestão de documentos técnicos até a geração da Lista de Materiais (BOM) estruturada.

Pipeline de Processamento

01

Ingestão de Documentos

Upload de PDFs, DWGs e imagens. O sistema aceita múltiplos formatos e realiza pré-processamento (normalização de resolução, detecção de orientação, separação de folhas).

PDF ParserImageMagickPyMuPDF
02

OCR & Extração de Texto

Reconhecimento óptico de caracteres em carimbos, notas técnicas e tabelas. Extração de textos estruturados e não-estruturados com alta precisão.

Tesseract OCREasyOCRClaude Vision
03

Visão Computacional

Identificação de símbolos gráficos (válvulas, transformadores, disjuntores, conexões) via modelos de IA treinados em diagramas unifilares e isométricos.

OpenCVYOLOv8GPT-4o Vision
04

Motor de Processamento

Extração de atributos (bitolas, materiais, classes de pressão), conversão de unidades e agrupamento de itens idênticos encontrados em diferentes folhas.

PythonPandasLógica de Engenharia
05

Conferência Human-in-the-loop

Interface de revisão lado a lado: documento original vs. itens extraídos. Permite edição manual, exclusão ou adição de itens sinalizados pela IA.

ReactFramer MotionReal-time Sync
06

Geração de BOM & Exportação

Consolidação final em Lista de Materiais estruturada. Exportação em Excel/CSV no padrão MIP Energia, com opção de formato compatível com SAP/TOTVS.

SheetJSExcelJSAPI REST

Stack Tecnológica

Frontend

React 19

Interface reativa e componentizada

Tailwind CSS 4

Design system utilitário

Framer Motion

Animações fluidas

shadcn/ui

Componentes acessíveis

Backend & IA

Python / FastAPI

Processamento de dados e API

OpenCV

Visão computacional

Claude / GPT-4o

Extração de entidades via LLM

Tesseract OCR

Reconhecimento de caracteres

Infraestrutura

PostgreSQL

Banco de dados relacional

Redis

Cache e filas de processamento

S3 / MinIO

Armazenamento de documentos

Docker

Containerização e deploy

Critérios de Aceitação — Geração de Lista

O sistema deve processar documentos PDF de até 200 páginas em menos de 5 minutos

A taxa de acerto do OCR deve ser superior a 95% para textos impressos em carimbos

Símbolos gráficos padrão (IEC/ANSI) devem ser identificados com precisão mínima de 90%

Itens idênticos em diferentes folhas devem ser agrupados automaticamente com soma de quantidades

A conversão de unidades deve suportar mm↔pol, m↔km, kg↔ton

A interface de conferência deve permitir edição inline de qualquer campo extraído

A exportação Excel deve seguir o template padrão da MIP Energia com cabeçalho e formatação

O sistema deve diferenciar automaticamente materiais de instalação de equipamentos principais

Itens com confiança abaixo de 90% devem ser sinalizados para revisão manual

O histórico de alterações manuais deve ser registrado para auditoria

Extração Baseada em Símbolos

Como projetos de energia costumam ter muitos Diagramas Unifilares e Isométricos, o motor de IA foca na extração de entidades baseada em símbolos gráficos, e não apenas em texto. Isso garante que itens desenhados, mas não escritos explicitamente, sejam incluídos na contagem — evitando perdas no levantamento quantitativo.