1. Fundamentos da Extração de Dados
Definição
A Extração de Dados é a primeira fase do ETL, responsável por coletar dados de fontes heterogêneas e disponibilizá-los para transformação e carga. É o processo que determina a qualidade e confiabilidade de todo o pipeline de dados.milvus+1
Características Principais
- Non-intrusive: Impacto mínimo nos sistemas fonte
- Scalable: Capacidade de crescer com volume de dados
- Fault-tolerant: Resistente a falhas de conectividade
- Auditable: Rastreabilidade completa das operações
2. Tipos de Dados e Fontes
Dados Estruturados
- Fontes: Bancos relacionais, CSVs, ERPs
- Técnicas: SQL queries, JDBC connections
- Ferramentas: Talend, Pentaho, SSIS
Dados Semi-estruturados
- Fontes: APIs REST (JSON), XML, NoSQL
- Técnicas: HTTP requests, parsers específicos
- Ferramentas: Apache NiFi, Logstash
Dados Não-estruturados