A operação-piloto da LogiTrack provou que sensores e gateways conseguem entregar telemetria em tempo quase real. Agora o problema mudou de forma: o dado bruto chegou e precisa virar informação confiável. Na Base Atlas, o NOC exibe três telas: mensagens MQTT entrando, buffers reenviados por HTTP e um banco crescente com registros heterogêneos. Juliana, analista de dados, é direta:
“Coletar funciona. Decidir ainda não. Falta qualidade, estrutura e rastreabilidade.”
O comitê define a meta da semana: projetar e operar o primeiro pipeline de tratamento com este objetivo duplo — confiabilidade para operações de curto prazo e organização para análises de médio prazo. A arquitetura adotada segue o modelo Bronze → Silver → Gold, com linhas de defesa claras, contratos de dados e mecanismos de reprocessamento.
1) Bronze: aterrissagem fiel e rastreável
Tudo o que chega é armazenado imutável em Bronze, sem transformações, particionado por data/event_date/device_id. Cada arquivo recebe manifesto com hash, contagem de linhas, horário de ingestão e origem (MQTT ou HTTP-backfill). O esquema é semiestruturado (JSON) para preservar o payload original. Objetivo: garantir auditoria e reprodutibilidade.
Na primeira hora de operação, aparecem problemas típicos: mensagens duplicadas por reconexão, timestamps no futuro por relógios mal configurados e leituras com unidades divergentes (°C vs °F). Nada é descartado em Bronze; tudo é marcado.
2) Validação e normalização (entre Bronze e Silver)
Marina e Pedro instituem um Schema Registry (versões telemetria_v1, …_v2) e validadores com regras obrigatórias: device_id, timestamp, temperatura, vibracao, gps. Campos ausentes levam o registro para quarentena (Error Lake) com motivo e stack de validação.
Regras de negócio:
Deduplicação idempotente por device_id + timestamp + hash(payload);
Correção de unidades: conversão automática para °C com anotação da origem;
Timestamps: rejeitar valores > 5 min à frente do relógio do broker; late data até 24 horas vai a uma fila de reprocessamento temporal;
GPS: validação de bounding box e coerência de velocidade; leituras impossíveis geram flag suspect=true.
Qualquer alteração gera tracking no metadado lineage: de Bronze para Silver com transformações declaradas.
3) Silver: dados limpos e modelados para consulta
Em Silver, as tabelas são normalizadas: telemetria (fato) com chaves para dimensões dim_device, dim_rotas, dim_veiculo. Campos padronizados: temperatura_c, vibracao_g, lat, lon, route_id, event_time. Cria-se watermark por partição para controlar janelas de agregação sem bloquear o stream por causa de atrasados.
Juliana define regras de qualidade (DQ) automáticas: completude ≥ 99% em campos críticos, unicidade por chave composta, drift de frequência por dispositivo, e checagens físicas (ex.: temperatura de medicamentos 2–8 °C). Falhas acionam alertas e abrem issue vinculada ao device.
4) Gold: consumo analítico e operacional
Gold expõe modelos de negócio prontos para BI e alertas:
temp_max, temp_min, temp_p95, tempo_acima_limite;