A operação-piloto da LogiTrack provou que sensores e gateways conseguem entregar telemetria em tempo quase real. Agora o problema mudou de forma: o dado bruto chegou e precisa virar informação confiável. Na Base Atlas, o NOC exibe três telas: mensagens MQTT entrando, buffers reenviados por HTTP e um banco crescente com registros heterogêneos. Juliana, analista de dados, é direta:

“Coletar funciona. Decidir ainda não. Falta qualidade, estrutura e rastreabilidade.”

O comitê define a meta da semana: projetar e operar o primeiro pipeline de tratamento com este objetivo duplo — confiabilidade para operações de curto prazo e organização para análises de médio prazo. A arquitetura adotada segue o modelo Bronze → Silver → Gold, com linhas de defesa claras, contratos de dados e mecanismos de reprocessamento.

1) Bronze: aterrissagem fiel e rastreável

Tudo o que chega é armazenado imutável em Bronze, sem transformações, particionado por data/event_date/device_id. Cada arquivo recebe manifesto com hash, contagem de linhas, horário de ingestão e origem (MQTT ou HTTP-backfill). O esquema é semiestruturado (JSON) para preservar o payload original. Objetivo: garantir auditoria e reprodutibilidade.

Na primeira hora de operação, aparecem problemas típicos: mensagens duplicadas por reconexão, timestamps no futuro por relógios mal configurados e leituras com unidades divergentes (°C vs °F). Nada é descartado em Bronze; tudo é marcado.

2) Validação e normalização (entre Bronze e Silver)

Marina e Pedro instituem um Schema Registry (versões telemetria_v1, …_v2) e validadores com regras obrigatórias: device_id, timestamp, temperatura, vibracao, gps. Campos ausentes levam o registro para quarentena (Error Lake) com motivo e stack de validação.

Regras de negócio:

3) Silver: dados limpos e modelados para consulta

Em Silver, as tabelas são normalizadas: telemetria (fato) com chaves para dimensões dim_device, dim_rotas, dim_veiculo. Campos padronizados: temperatura_c, vibracao_g, lat, lon, route_id, event_time. Cria-se watermark por partição para controlar janelas de agregação sem bloquear o stream por causa de atrasados.

Juliana define regras de qualidade (DQ) automáticas: completude ≥ 99% em campos críticos, unicidade por chave composta, drift de frequência por dispositivo, e checagens físicas (ex.: temperatura de medicamentos 2–8 °C). Falhas acionam alertas e abrem issue vinculada ao device.

4) Gold: consumo analítico e operacional

Gold expõe modelos de negócio prontos para BI e alertas: