2025
Extracção de Informação e Ontologias
Nome: Extracção de Informação e Ontologias
Cód.: INF13258M
6 ECTS
Duração: 15 semanas/156 horas
Área Científica:
Informática
Língua(s) de lecionação: Português
Língua(s) de apoio tutorial: Português
Objetivos de Desenvolvimento Sustentável
Objetivos de Aprendizagem
O objectivo principal é fornecer as competências necessárias a analisar, comparar e construir sistemas computacionais com a capacidade de processar grandes colecções de documentos, extrair informação relevante, povoar ontologias (bases de conhecimento) e responder a perguntas em Língua Natural sobre a informação extraída.
Como objectivos adicionais, pretende-se que os alunos apliquem competências avançadas nas áreas de processamento de Língua Natural análise lexical, sintáctica, semântica e pragmática e de aprendizagem automática.
Como objectivos adicionais, pretende-se que os alunos apliquem competências avançadas nas áreas de processamento de Língua Natural análise lexical, sintáctica, semântica e pragmática e de aprendizagem automática.
Conteúdos Programáticos
1. Conceitos básicos: colecções de documentos; extracção de informação; text mining/mineração de textos; ontologias; sistemas de pergunta-resposta em Língua Natural.
2. Medidas de avaliação. Medidas standard precisão, cobertura, f-measure e conferências: QA@CLEF; TREC QA.
3. Abordagens simbólicas PLN: léxico, sintaxe, semântica, pragmática, ontologias.
4. Abordagens não simbólicas: extracção de informação através de técnicas de aprendizagem automática SVMs, redes neuronais/deep learning.
5. Abordagens mistas.
6. Estudos de Caso: povoação automática de ontologias; etiquetagem semântica semantic role labelling; sumarização automática; sistemas de pergunta-resposta.
2. Medidas de avaliação. Medidas standard precisão, cobertura, f-measure e conferências: QA@CLEF; TREC QA.
3. Abordagens simbólicas PLN: léxico, sintaxe, semântica, pragmática, ontologias.
4. Abordagens não simbólicas: extracção de informação através de técnicas de aprendizagem automática SVMs, redes neuronais/deep learning.
5. Abordagens mistas.
6. Estudos de Caso: povoação automática de ontologias; etiquetagem semântica semantic role labelling; sumarização automática; sistemas de pergunta-resposta.
Métodos de Ensino
Como metodologia de ensino será adoptado um misto de várias técnicas:
1. Exposição oral dos conceitos e metodologias base
2. Indicação de artigos científicos sobre trabalhos recentes e/ou em curso
3. Apresentação e discussão de artigos científicos seleccionados
4. Elaboração de trabalhos práticos sobre os conceitos discutidos
5. Utilização de plataforma de e-learning moodle
A avaliação é efectuada com base nas seguintes componentes:
1. Realização de um projecto / trabalho prático
2. Realização de uma monografia/artigo científico
3. Apresentação oral dos trabalhos realizados
1. Exposição oral dos conceitos e metodologias base
2. Indicação de artigos científicos sobre trabalhos recentes e/ou em curso
3. Apresentação e discussão de artigos científicos seleccionados
4. Elaboração de trabalhos práticos sobre os conceitos discutidos
5. Utilização de plataforma de e-learning moodle
A avaliação é efectuada com base nas seguintes componentes:
1. Realização de um projecto / trabalho prático
2. Realização de uma monografia/artigo científico
3. Apresentação oral dos trabalhos realizados
Bibliografia
M. F. Moens. Information-extraction: Algorithms and prospects in a Retrieval Context. Springer. 2006
J. Davies and R. Studer and P. Warren. Semantic-web Technologies Trends and Research in Ontology-based Systems. Jonh Wiley and Sons. 2006.
S. Sarawagi. Information Extraction. Foundations and Trends in Databases. Vol 1 nº 3. pages 261-377.
QA@CLEF: Question-Answering Track of the Cross Language Evaluation Forum
TREC QA: Question-Answering Track at the Text Retrieval Conference
William W. Cohen. Minorthird: Methods for identifying names and onto-
logical relations in text using heuristics for inducing regularities from data.
http://minorthird.sourceforge.net, 2004.
H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan. GATE: A frame-
work and graphical development environment for robust NLP tools and ap-
plications. In Proceedings of the 40th Anniversary Meeting of the Association
for Computational Linguistics, 2002
J. Davies and R. Studer and P. Warren. Semantic-web Technologies Trends and Research in Ontology-based Systems. Jonh Wiley and Sons. 2006.
S. Sarawagi. Information Extraction. Foundations and Trends in Databases. Vol 1 nº 3. pages 261-377.
QA@CLEF: Question-Answering Track of the Cross Language Evaluation Forum
TREC QA: Question-Answering Track at the Text Retrieval Conference
William W. Cohen. Minorthird: Methods for identifying names and onto-
logical relations in text using heuristics for inducing regularities from data.
http://minorthird.sourceforge.net, 2004.
H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan. GATE: A frame-
work and graphical development environment for robust NLP tools and ap-
plications. In Proceedings of the 40th Anniversary Meeting of the Association
for Computational Linguistics, 2002
