2024

Mineração de Dados

Nome: Mineração de Dados
Cód.: INF13273M
6 ECTS
Duração: 15 semanas/156 horas
Área Científica: Informática

Língua(s) de lecionação: Português
Língua(s) de apoio tutorial: Português

Objetivos de Desenvolvimento Sustentável

Objetivos de Aprendizagem

No final da unidade curricular o aluno deverá demonstrar:
Compreensão pelas principais abordagens e técnicas de mineração de dados, focando, nomeadamente os tipos de problemas, a preparação dos dados, incluindo os desafios colocados pelo big data;
Capacidade para usar ferramentas de mineração de dados e aplicá-las em conjuntos de dados revelando a compreensão profunda de principais tópicos de mineração de dados;
Capacidade para desenvolver/aprofundar técnicas de desenho e programação para a construção de sistemas inteligentes e adaptáveis;
Capacidade para desenvolver/aprofundar técnicas básicas necessárias para realizar investigação em mineração de dados e big data.

Conteúdos Programáticos

O processo de data mining
Tipos de problemas: associação de padrões, agrupamento, deteção de outliers, classificação
Preparação dos dados: extração, limpeza, seleção, redução e transformação de atributos, amostragem e subamostragem
Mineração de: streams, texto, séries temporais, sequências discretas, dados espaciais, grafos, dados web
Medidas de semelhança e distâncias
Problemas, abordagens e algoritmos
Associação de padrões
Análise de agrupamentos
Algoritmos: K-means, EM, PCA, SOM, …
Avaliação de desempenho
Classificação
métodos ensemble. Problemas com classes desequilibradas
Métricas de desempenho: precision, recall, F-measure, ROC curve, Log loss e outras
Regressão
modelos lineares e não lineares.
avaliação de desempenho: erros quadráticos, erros absolutos, medianas do erro absoluto, coeficiente de correlação
Análise de outliers (supervisionada e não supervisionada)
Medidas de complexidade/simplicidade
Critérios de desempenho mistos
Preservação de privacidade.

Métodos de Ensino

A metodologia de ensino compreende: - disponibilização de todos os recursos através duma plataforma informática de ensino (e.g. Moodle) e disponibilização prévia a cada sessão presencial dos materiais relevantes - apresentação de exemplos, demonstrações e resolução de problemas para cada conceito apresentado - apresentação e submissão de exercícios via plataforma informática de ensino - orientação da apresentação dos conceitos em torno das aplicações e projetos a realizar.

Avaliação

Avaliação contínua:
40% de Exame,
40% de trabalho Final
20% de Relatórios de Laboratórios práticos ao longo do semestre (mínimo de 5)
Avaliação final
50% de Exame,
50% de trabalho Final

Bibliografia

A bibliografia da disciplina baseia-se fundamentalmente em recursos de acesso livre, e através do sistema b-On, acessíveis à distância via internet por todos os alunos da universidade, e atualizados sempre que necessário:

Recursos abertos:
Weka https://www.cs.waikato.ac.nz/ml/weka/
Weka documentation https://www.cs.waikato.ac.nz/ml/weka/documentation.html
A Programmer's Guide to Data Mining http://guidetodatamining.com/
DATA MINING AND ANALYSIS Fundamental Concepts and Algorithms http://www.dataminingbook.info/pmwiki.php/Main/BookResources

Para além destes recursos, indicam-se algumas referências complementares.
Livros:
Data Mining: The Textbook. Charu C. Aggarwal, Springer.
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd Edition.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer
Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking.Foster Provost and Tom Fawcett, O’Reilly Media.

Equipa Docente (2023/2024 )