2024
Mineração de Dados
Nome: Mineração de Dados
Cód.: INF13273M
6 ECTS
Duração: 15 semanas/156 horas
Área Científica:
Informática
Língua(s) de lecionação: Português, Inglês
Língua(s) de apoio tutorial: Português, Inglês
Regime de Frequência: E-learning
Objetivos de Desenvolvimento Sustentável
Objetivos de Aprendizagem
No final da unidade curricular o aluno deverá demonstrar:
Compreensão pelas principais abordagens e técnicas de mineração de dados, focando, nomeadamente os tipos de problemas, a preparação dos dados, incluindo os desafios colocados pelo big data;
Capacidade para usar ferramentas de mineração de dados e aplicá-las em conjuntos de dados revelando a compreensão profunda de principais tópicos de mineração de dados;
Capacidade para desenvolver/aprofundar técnicas de desenho e programação para a construção de sistemas inteligentes e adaptáveis;
Capacidade para desenvolver/aprofundar técnicas básicas necessárias para realizar investigação em mineração de dados e big data.
Compreensão pelas principais abordagens e técnicas de mineração de dados, focando, nomeadamente os tipos de problemas, a preparação dos dados, incluindo os desafios colocados pelo big data;
Capacidade para usar ferramentas de mineração de dados e aplicá-las em conjuntos de dados revelando a compreensão profunda de principais tópicos de mineração de dados;
Capacidade para desenvolver/aprofundar técnicas de desenho e programação para a construção de sistemas inteligentes e adaptáveis;
Capacidade para desenvolver/aprofundar técnicas básicas necessárias para realizar investigação em mineração de dados e big data.
Conteúdos Programáticos
O processo de data mining
Tipos de problemas: associação de padrões, agrupamento, deteção de outliers, classificação
Preparação dos dados: extração, limpeza, seleção, redução e transformação de atributos, amostragem e subamostragem
Mineração de: streams, texto, séries temporais, sequências discretas, dados espaciais, grafos, dados web
Medidas de semelhança e distâncias
Problemas, abordagens e algoritmos
Associação de padrões
Análise de agrupamentos
Algoritmos: K-means, EM, PCA, SOM,
Avaliação de desempenho
Classificação
métodos ensemble. Problemas com classes desequilibradas
Métricas de desempenho: precision, recall, F-measure, ROC curve, Log loss e outras
Regressão
modelos lineares e não lineares.
avaliação de desempenho: erros quadráticos, erros absolutos, medianas do erro absoluto, coeficiente de correlação
Análise de outliers (supervisionada e não supervisionada)
Medidas de complexidade/simplicidade
Critérios de desempenho mistos
Preservação de privacidade.
Tipos de problemas: associação de padrões, agrupamento, deteção de outliers, classificação
Preparação dos dados: extração, limpeza, seleção, redução e transformação de atributos, amostragem e subamostragem
Mineração de: streams, texto, séries temporais, sequências discretas, dados espaciais, grafos, dados web
Medidas de semelhança e distâncias
Problemas, abordagens e algoritmos
Associação de padrões
Análise de agrupamentos
Algoritmos: K-means, EM, PCA, SOM,
Avaliação de desempenho
Classificação
métodos ensemble. Problemas com classes desequilibradas
Métricas de desempenho: precision, recall, F-measure, ROC curve, Log loss e outras
Regressão
modelos lineares e não lineares.
avaliação de desempenho: erros quadráticos, erros absolutos, medianas do erro absoluto, coeficiente de correlação
Análise de outliers (supervisionada e não supervisionada)
Medidas de complexidade/simplicidade
Critérios de desempenho mistos
Preservação de privacidade.
Métodos de Ensino
A metodologia de ensino compreende: - disponibilização de todos os recursos através duma plataforma informática de ensino (e.g. Moodle) e disponibilização prévia a cada sessão presencial dos materiais relevantes - apresentação de exemplos, demonstrações e resolução de problemas para cada conceito apresentado - apresentação e submissão de exercícios via plataforma informática de ensino - orientação da apresentação dos conceitos em torno das aplicações e projetos a realizar.
Avaliação
Avaliação contínua:
40% de Exame,
40% de trabalho Final
20% de Relatórios de Laboratórios práticos ao longo do semestre (mínimo de 5)
Avaliação final
50% de Exame,
50% de trabalho Final
40% de Exame,
40% de trabalho Final
20% de Relatórios de Laboratórios práticos ao longo do semestre (mínimo de 5)
Avaliação final
50% de Exame,
50% de trabalho Final
Bibliografia
A bibliografia da disciplina baseia-se fundamentalmente em recursos de acesso livre, e através do sistema b-On, acessíveis à distância via internet por todos os alunos da universidade, e atualizados sempre que necessário:
Recursos abertos:
Weka https://www.cs.waikato.ac.nz/ml/weka/
Weka documentation https://www.cs.waikato.ac.nz/ml/weka/documentation.html
A Programmer's Guide to Data Mining http://guidetodatamining.com/
DATA MINING AND ANALYSIS Fundamental Concepts and Algorithms http://www.dataminingbook.info/pmwiki.php/Main/BookResources
Para além destes recursos, indicam-se algumas referências complementares.
Livros:
Data Mining: The Textbook. Charu C. Aggarwal, Springer.
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd Edition.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer
Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking.Foster Provost and Tom Fawcett, OReilly Media.
Recursos abertos:
Weka https://www.cs.waikato.ac.nz/ml/weka/
Weka documentation https://www.cs.waikato.ac.nz/ml/weka/documentation.html
A Programmer's Guide to Data Mining http://guidetodatamining.com/
DATA MINING AND ANALYSIS Fundamental Concepts and Algorithms http://www.dataminingbook.info/pmwiki.php/Main/BookResources
Para além destes recursos, indicam-se algumas referências complementares.
Livros:
Data Mining: The Textbook. Charu C. Aggarwal, Springer.
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd Edition.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer
Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking.Foster Provost and Tom Fawcett, OReilly Media.
Equipa Docente
- Luís Miguel de Mendonça Rato [responsável]