UCI Machine Learning Repository
Pipeline de Dados e Orquestração
Esta disciplina visa proporcionar uma formação abrangente e prática sobre os principais pilares da Engenharia de Dados, combinando fundamentos teóricos com aplicação prática de ferramentas e metodologias modernas. O curso está estruturado em quatro módulos principais:
Neste módulo, os alunos serão introduzidos aos conceitos essenciais da Engenharia de Dados, abordando tópicos como a cultura orientada a dados, princípios do DataOps, arquitetura de dados, boas práticas de documentação, versionamento de dados e colaboração em equipes multidisciplinares.
Foco no desenvolvimento de habilidades para provisionamento e gerenciamento de ambientes de dados utilizando práticas de Infraestrutura como Código (IaC). Serão abordadas ferramentas como Terraform, Ansible e CloudFormation, além de conceitos de automação, escalabilidade e segurança na infraestrutura de dados.
Este módulo explora a construção de pipelines de dados robustos e escaláveis, desde a ingestão até o processamento e entrega dos dados. Os alunos aprenderão sobre ferramentas e frameworks como Apache Airflow, dbt, Luigi e sistemas de mensageria, além de práticas para orquestração eficiente e monitoramento de fluxos de dados.
A disciplina se encerra com a discussão sobre governança de dados, qualidade, segurança, conformidade com legislações (como LGPD), além de estratégias de entrega contínua (CI/CD) aplicadas a ambientes de dados. Serão discutidas ferramentas e práticas que garantem a confiabilidade, rastreabilidade e evolução contínua das soluções implementadas.