Modelo de linguagem de grande escala (em inglês, LLM ou Large Language Model) com capacidades multilingues para português e galego

A FCT aprovou, no passado mês de outubro, um projeto para a criação de um modelo de linguagem de grande escala (em inglês, LLM ou Large Language Model) com capacidades multilingues para português e galego. Este projeto, já em curso, utiliza o supercomputador Mare Nostrum 5, recentemente inaugurado no "Barcelona Supercomputing Center", e prevê a disponibilização deste novo modelo durante o primeiro trimestre de 2025.

Para Paulo Quaresma, Vice-Reitor para a Investigação, Internacionalização e Inovação da Universidade de Évora, o projeto “visa contribuir de uma forma efetiva e positiva para a criação de ferramentas computacionais de elevado desempenho para o processamento da Língua Portuguesa, disponibilizando-as à comunidade em geral e aos cidadãos em particular”

A implementação do projeto será efetuada através da colaboração entre uma equipa de investigação portuguesa e outra galega. A portuguesa, constituída pelos Professores Paulo Quaresma, Vítor Nogueira e Pedro Salgueiro, pertence ao polo na Universidade de Évora do Centro de Investigação Algoritmi e ao Laboratório Associado em Sistemas Inteligentes (LASI), sendo o trabalho desenvolvido no contexto do projeto FCT AiBERTa. Este projeto, para a criação de um modelo de língua BERT pré-treinado para o português europeu baseado no Arquivo.pt, aprovado em julho de 2022, foi um projeto pioneiro na área dos LLMs para português. A equipa galega pertence ao "Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS)", associado à Universidade de Santiago de Compostela. Esta participação enquadra-se nos projetos Nós e ILENIA e tem como foco o desenvolvimento de recursos e modelos de IA para o galego e para as línguas oficiais de Espanha.

No âmbito desta colaboração, já foi desenvolvido um modelo de linguagem generativa inovador baseado nas variantes portuguesa e galega (Carvalho_pt-gl), representando um avanço significativo na integração destas línguas em modelos de inteligência artificial. O Congresso Internacional de Inteligência Artificial EPIA2024, realizado recentemente em Viana do Castelo, reconheceu com o "Best Application Paper Award" o artigo ‘A Galician-Portuguese Generative Model’, onde se descreve este modelo e o seu desempenho em tarefas de Processamento de Língua Natural. O trabalho realizado teve como suporte os supercomputadores Vision do Laboratório "BigData@UE" da Universidade de Évora e o Finisterrae III do Centro de Supercomputação da Galiza (CESGA).

O modelo existente, de 1,3 mil milhões de parâmetros e treinado com mais de 6 mil milhões de palavras, está disponível para ‘download’ gratuito e projetado para processar e gerar conteúdo em português europeu e em galego. Está em curso, com recurso ao supercomputador Mare Nostrum 5 e no contexto do projeto FCT aprovado, a criação de uma versão de maior dimensão, com 8 mil milhões de parâmetros, que será também disponibilizada gratuitamente.

Publicado em 21.11.2024

Voltar

Modelo de linguagem de grande escala (em inglês, LLM ou Large Language Model) com capacidades multilingues para português e galego

Política de Cookies