Fundamentos de Ciência de Dados. Conceitos básicos: dado, informação, conhecimento, inferência estatística. Tipos de dados: estruturados, semiestruturados e não estruturados (textos, PDFs, imagens, logs).
SQL para consulta a bancos de dados relacionais.
Ciclo de vida do dado: coleta, armazenamento, processamento, análise, visualização e descarte. Coleta e Integração de Dados. ETL (Extract, Transform, Load). Integração de dados heterogêneos e interoperabilidade.
Ética e Boas Práticas em Ciência de Dados. Vieses algorítmicos e equidade. Transparência e explicabilidade de modelos (XAI).
Overfitting, underfitting e validação cruzada.
Classificação e Predição de Dados. Regressão linear e logística. Árvores de decisão.
Técnicas de agrupamento (clustering): K-means, DBSCAN, hierárquico. Redução de dimensionalidade (PCA, t-SNE).
Avaliação de modelos: acurácia, precisão, recall, F1-score, curva ROC.
Limpeza e pré-processamento: tratamento de missing values, detecção de outliers, padronização. Técnicas de coleta: raspagem web (web scraping), APIs.
Processamento de linguagem natural (PLN). Extração de informações de documentos (PDFs, digitalizações). Análise de sentimentos, tópicos e similaridade textual.
Governança de dados: catálogo de dados, linhagem, metadados. Qualidade e Integridade de Dados. Dimensões da qualidade de dados: precisão, completude, consistência, atualidade.
Análise de séries temporais
Análise exploratória de dados (EDA).
Visualização de dados e dashboards interativos (Power BI, Tableau).