Este repositório reúne um projeto completo de ciência de dados, cobrindo:
-
ETL automatizado (Prefect + DuckDB + Parquet)
-
Análise exploratória (EDA) por domínio
-
Modelagem e experimentos de Machine Learning
-
Validação analítica pós-ETL
-
Protótipos de deploy (ex.: Streamlit)
O objetivo é construir uma base robusta para otimização analítica de custos e planejamento financeiro, usando dados estruturados de energia, manufatura e custos.
O projeto é organizado em camadas e módulos:
- Camadas de dados: Raw → Bronze → Silver → Gold
- Módulos principais:
-
etl/– pipeline automatizado de ingestão, transformação e carga -
eda/– análises exploratórias em código “de produção” -
notebooks/– experimentos, documentação viva e testes -
validacao/– validação analítica, consultas de consistência -
deploy/– protótipos de dashboards e aplicações para consumo dos dados
-
O data warehouse é mantido localmente em DuckDB (dentro de artifacts/).
[Fontes brutas: CSV / planilhas / dumps]
↓
data/raw/ (landing)
↓
BRONZE → data/bronze/
↓
SILVER → data/silver/
↓
GOLD → data/gold/
↓
artifacts/warehouse.duckdb
↓
EDA • Modelagem • Dashboards
project-root/
├── artifacts/
├── configs/
├── data/
├── deploy/
├── eda/
├── etl/
├── notebooks/
├── reports/
├── validacao/
├── LICENSE
├── README.md
├── requirements.txt
└── environment.yml
conda create -n env_empresaX python=3.12
conda activate env_empresaX
pip install -r requirements.txt
python -m etl.flow.etl_core-
Python, Pandas, PyArrow
-
DuckDB
-
Prefect
-
Great Expectations
-
Parquet
-
Streamlit
-
Plotly
-
ETL (
etl/) – Pipeline modular Raw → Gold -
EDA (
eda/+notebooks/eda/) – Análises descritivas -
Modelagem (
notebooks/modelling/) – ML, SHAP -
Validação (
validacao/+notebooks/validation/) – Checks pós-ETL -
Deploy (
deploy/+notebooks/deploy/) – Protótipos Streamlit
Flavio Rusch
Cientista de Dados | Ph.D. em Física Estatística | Pós-doutorado em neurociência computacional - USP
Foco em modelagem computacional, ETL moderno, análise de dados industriais e redes complexas.