2025

Extracção de Informação e Ontologias

Nome: Extracção de Informação e Ontologias
Cód.: INF13258M
6 ECTS
Duração: 15 semanas/156 horas
Área Científica: Informática

Língua(s) de lecionação: Português
Língua(s) de apoio tutorial: Português

Objetivos de Desenvolvimento Sustentável

Objetivos de Aprendizagem

O objectivo principal é fornecer as competências necessárias a analisar, comparar e construir sistemas computacionais com a capacidade de processar grandes colecções de documentos, extrair informação relevante, povoar ontologias (bases de conhecimento) e responder a perguntas em Língua Natural sobre a informação extraída.
Como objectivos adicionais, pretende-se que os alunos apliquem competências avançadas nas áreas de processamento de Língua Natural – análise lexical, sintáctica, semântica e pragmática – e de aprendizagem automática.

Conteúdos Programáticos

1. Conceitos básicos: colecções de documentos; extracção de informação; “text mining”/mineração de textos; ontologias; sistemas de pergunta-resposta em Língua Natural.
2. Medidas de avaliação. Medidas “standard” – precisão, cobertura, f-measure – e conferências: QA@CLEF; TREC QA.
3. Abordagens simbólicas PLN: léxico, sintaxe, semântica, pragmática, ontologias.
4. Abordagens não simbólicas: extracção de informação através de técnicas de aprendizagem automática – SVMs, redes neuronais/deep learning.
5. Abordagens “mistas”.
6. Estudos de Caso: povoação automática de ontologias; etiquetagem semântica – “semantic role labelling”; sumarização automática; sistemas de pergunta-resposta.

Métodos de Ensino

Como metodologia de ensino será adoptado um misto de várias técnicas:
1. Exposição oral dos conceitos e metodologias base
2. Indicação de artigos científicos sobre trabalhos recentes e/ou em curso
3. Apresentação e discussão de artigos científicos seleccionados
4. Elaboração de trabalhos práticos sobre os conceitos discutidos
5. Utilização de plataforma de e-learning moodle

A avaliação é efectuada com base nas seguintes componentes:
1. Realização de um projecto / trabalho prático
2. Realização de uma monografia/artigo científico
3. Apresentação oral dos trabalhos realizados

Bibliografia

M. F. Moens. Information-extraction: Algorithms and prospects in a Retrieval Context. Springer. 2006

J. Davies and R. Studer and P. Warren. Semantic-web Technologies Trends and Research in Ontology-based Systems. Jonh Wiley and Sons. 2006.

S. Sarawagi. Information Extraction. Foundations and Trends in Databases. Vol 1 nº 3. pages 261-377.

QA@CLEF: Question-Answering Track of the Cross Language Evaluation Forum

TREC QA: Question-Answering Track at the Text Retrieval Conference

William W. Cohen. Minorthird: Methods for identifying names and onto-
logical relations in text using heuristics for inducing regularities from data.
http://minorthird.sourceforge.net, 2004.

H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan. GATE: A frame-
work and graphical development environment for robust NLP tools and ap-
plications. In Proceedings of the 40th Anniversary Meeting of the Association
for Computational Linguistics, 2002