🔄 Revisão do Pipeline ETL

O que já foi feito:

✅ Extração (E): Dados coletados de CSV e Excel do MinIO

✅ Carregamento (L): Dados inseridos na tabela working do ClickHouse

Estrutura da Tabela working:

CREATE TABLE working (
    timestamp_unix UInt64,
    data_value String,-- JSON com dados do arquivo
    data_tag String-- Nome do arquivo fonte
);

Exemplo de Dados:

{
    "timestamp_unix": 1693929600,
    "data_value": "{\\"nome\\":\\"João\\",\\"idade\\":25,\\"cidade\\":\\"São Paulo\\"}",
    "data_tag": "vendas_2024_01.csv"
}

🛠️ Ferramentas de Orquestração

Opção 1: Apache Airflow

Vantagens:

Desvantagens:

Instalação Local:

# Instalar Airflow
pip install apache-airflow

# Inicializar banco de dados
airflow db init

# Criar usuário admin
airflow users create \\
    --username admin \\
    --firstname Admin \\
    --lastname User \\
    --role Admin \\
    --email [email protected] \\
    --password admin

# Iniciar webserver
airflow webserver --port 8080

# Iniciar scheduler (em outro terminal)
airflow scheduler

Opção 2: Prefect