Bancos de dados relacionais. Projeto. Formas normais e modelagem de dados.
SQL (Procedural Language/Structured Query Language).
Transações. Gerenciamento e Processamento.
Técnicas para detecção de problemas e otimização de desempenho do SGBD e de consultas SQL.
Banco de dados NoSQL (Key/Value, Orientados a Documentos e Grafos).
Sistemas gerenciadores de banco de dados: MS SQL Server. Conceitos. Noções de administração.
Arquitetura e aplicações de data warehousing, ETL. Business Intelligence – processo de coleta, organização, análise e compartilhamento de informações.
OLAP. Técnicas de modelagem e otimização de bases de dados multidimensionais.
Dashboards: Painéis e visualização de dados. Self-Service Analytics e BI em Cloud.
Governança de dados. Conceito e noção básica. Arquitetura de Dados. Qualidade de Dados. Metadados. Qualidade de dados. Conceitos e definições. Dimensões da qualidade de dados (visão DMBOK). Principais técnicas em qualidade de dados. Profiling. Matching. Deduplicação. Data cleansing. Enriquecimento. Boas práticas para adoção da qualidade de dados. Processos de qualidade para modelos de dados.
Big Data. Fundamentos. Tipos de dados: estruturados, semiestruturados e não estruturados. Conceito dos cinco Vs. Fluxo de big data: ingestão, processamento e disponibilização. Armazenamento de big data. Pipeline de dados. Processamento distribuído. Conceito de data lake. ETL X ELT. Soluções de big data.
Arquiteturas de big data. Data Streaming em tempo real: Apache Kafka, processamento de eventos em tempo real. Processamento MapReduce. Spark
Explainable AI (XAI): transparência e interpretabilidade de modelos, técnicas como LIME, SHAP, análise de importância de features e explicabilidade em deep learning. Data Ethics: ética e responsabilidade no uso de dados e IA, viés algorítmico, fairness, privacidade diferencial e governança ética de algoritmos.
Aprendizado de máquina. Métricas de avaliação. Overfitting underfitting.
Técnicas de classificação. Técnicas de regressão.
Técnicas de agrupamento. Técnicas de redução de dimensionalidade. Técnicas de associação. Sistemas de recomendação.
Deep learning. IA Generativa: conceitos fundamentais, Large Language Models (LLMs), arquiteturas de modelos generativos, aplicações em geração de texto, imagem e código, modelos de difusão, técnicas de treinamento e ajuste fino, engenharia de prompts, riscos e limitações dos sistemas generativos.
Processamento de linguagem natural (PLN). Principais algoritmos.
MLOps: práticas para operacionalização de modelos de machine learning, incluindo versionamento de modelos, CI/CD para ML, monitoramento de performance e drift de modelos.
Tratamento de dados. Normalização numérica. Discretização. Tratamento de dados ausentes. Tratamento de outliers e agregações. Organização e identificação de variáveis qualitativas e quantitativas, nominais e ordinais, discretas e contínuas. Oversampling e undersampling.
Ingestão de dados. Conceito de ingestão de dados. Ingestão de dados estruturados, semiestruturados e não estruturados. Ingestão de dados em lote (batch). Ingestão de dados em streaming. Ingestão de dados full × incremental.
Processamento de dados. Conceitos de processamento massivo e paralelo. Processamento em lote (batch). Processamento em tempo real (real time).
Edge Computing: processamento distribuído na borda da rede. Federated Learning: aprendizado de máquina descentralizado. Somente em Vídeo