modelo de língua BERT pré-treinado para o português europeu baseado no Arquivo.pt
Resumo
O conceito de "transformers" foi responsável por um avanço no uso de redes neuronais para Processamento de Língua Natural (PLN). Com base neste trabalho, os investigadores apresentaram BERT (Bidirectional Encoder Representations from Transformers).
Resultados recentes para avaliação de várias tarefas de compreensão de linguagem natural (GLUE, MultiNLI, SQuAD v1.1 e SQuAD v2.0) mostraram que o modelo de representação de linguagem BERT melhorou os valores do estado da arte. De uma forma muito simplificada, podemos dizer que a novidade desta arquitetura foi ter um contexto bidirecional em todas as camadas.
Embora o modelo BERT multilingue pré-treinado possa ser usado para tarefas de PLN posteriores, como marcação POS, Reconhecimento de Entidades Nomeadas (REN) ou Inferência de Linguagem Natural, existem vários exemplos bem-sucedidos de replicação da arquitetura BERT e derivadas de BERT para construir modelos monolingues. Como ilustração, podemos encontrar exemplos de idiomas como francês, espanhol, italiano e português do Brasil.
O principal objetivo deste projeto é construir um grande Modelo de Linguagem (ML) pré-treinado para o Português Europeu. Consideramos que as principais razões para a inexistência de tal modelo tem a ver com duas categorias de obstáculos: por um lado, a necessidade de abundantes quantidades de dados não anotados e, por outro, recursos computacionais.
Para ultrapassar o primeiro obstáculo, propomos recorrer à infraestrutura do Arquivo.pt (o principal objetivo deste sistema é a preservação da informação publicada na web portuguesa). Para ultrapassar a segunda, utilizaremos o recém-criado laboratório de informática da Universidade de Évora dedicado à área de Inteligência Artificial (IA) e Big Data – BigData@UÉ.
A divulgação pública deste modelo pré-treinado, baseado na arquitetura BERT, é um contributo relevante para a comunidade portuguesa de PLN. Como referido, a novidade desta proposta é a união de um arquivo web português abudante (Arquivo.pt) e o poder computacional do BigData@UÉ Lab.
Para validar o modelo e estabelecer algumas comparações com trabalhos similares, também propomos a construção de um novo classificador para REN. Embora tal classificador seja um resultado secundário, também o consideramos um resultado relevante do projeto.
O IR e o Co-IR têm uma sólida experiência em Processamento de Linguagem Natural, incluindo a orientação de onze doutoramentos nesta área. Além disso, participaram em vários projetos de investigação com uma forte componente de Aprendizagem Automática e orientaram vários mestrados nesta área. Finalmente, ambos estão profundamente envolvidos no BigData@UÉ Lab, sendo o Co-IR responsável pelo sucesso do seu financiamento.