2024

Transformação e Análise de Dados

Nome: Transformação e Análise de Dados
Cód.: INF14387L
6 ECTS
Duração: 15 semanas/156 horas
Área Científica: Informática

Língua(s) de lecionação: Português
Língua(s) de apoio tutorial: Português

Objetivos de Desenvolvimento Sustentável

Objetivos de Aprendizagem

Esta UC tem como objetivo geral fornecer aos alunos conhecimentos teóricos e sobre ferramentas para extração, seleção e transformação de informação de modo a ser utilizada, de forma eficiente, por algoritmos de análise e aprendizagem automática.

No final do semestre o aluno deverá estar apto a:
- analisar a qualidade da informação disponível e aplicar técnicas para tratar valores desconhecidos (missing values)
- aplicar técnicas para deteção e tratamento de outliers e de desequilíbrio nos dados
- extrair atributos e converter dados (ex. normalização, discretização, transformadas em tempo e frequência, etc)
- projetar e implementar técnicas para seleção e redução de atributos

Conteúdos Programáticos

Tratamento de dados:
-Tipos de dados: numéricos, categóricos, texto, imagens, séries temporais, georreferenciados, áudio, grafos, etc
- Aquisição de dados e estratégias de anotação
- Avaliação da qualidade dos dados
-Deteção e tratamento de outliers e valores em falta
- Discretização e conversão de variáveis
- Normalização
- Tratamento de dados não balanceados

Análise, seleção e redução de atributos
- Engenharia de características
- Visualização exploratória
- Métodos baseados no desempenho da classificação/regressão
- Métodos supervisionados e não supervisionados

Processamento de dados de texto
- Bag-of-words, n-gramas, utilização de informação morfológica e sintática, kernels de convolução

Processamento de dados de imagem
- Tipos de ruído
- Filtragem linear e não linear; Convolução e correlação
- Deteção de features
- Segmentação
- Transformações geométricas

Métodos de Ensino

Metodologias de ensino:
* Aulas teóricas com introdução de conceitos, resolução acompanhada de exercícios e esclarecimento de dúvidas.
* Aulas práticas laboratoriais com proposta de problemas que acompanham a matéria teórica e esclarecimento de dúvidas durante a sua resolução. Exercícios, de dificuldade gradual, cobrindo os tópicos ensinados, para os alunos praticarem a matéria.



Avaliação

Avaliação contínua
* teórica (50%): duas frequências escritas (25% cada)
* prática (50%): desenvolvimento de um projeto

Avaliação final
* teórica (50%): exame final escrito
* prática (50%): desenvolvimento de um projeto

Bibliografia

Data Preprocessing in Data Mining. García, Luengo & Herrera. Springer. (2015)
Feature Engineering and Selection: A Practical Approach for Predictive Models. M. Kuhn, K. Johnson. Chapman & Hall. (2018)
Data Mining: Practical Machine Learning Tools and Techniques. IH. Witten, E. Frank, MA. Hall and CJ. Pal. Morgan Kaufmann. (2017)
Applied Text Analysis with Python: Enabling Language-Aware Data Products with Machine Learning, by Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda. (2009)
Content-Based Image Classification Efficient Machine Learning Using Robust Feature Extraction Techniques, By Rik Das, CRC Press. (2021)