Modelo de linguagem de grande escala (em inglês, LLM ou Large Language Model) com capacidades multilingues para português e galego
A FCT aprovou, no passado mês de outubro, um projeto para a criação de um modelo de linguagem de grande escala (em inglês, LLM ou Large Language Model) com capacidades multilingues para português e galego. Este projeto, já em curso, utiliza o supercomputador Mare Nostrum 5, recentemente inaugurado no "Barcelona Supercomputing Center", e prevê a disponibilização deste novo modelo durante o primeiro trimestre de 2025.
Para Paulo Quaresma, Vice-Reitor para a Investigação, Internacionalização e Inovação da Universidade de Évora, o projeto “visa contribuir de uma forma efetiva e positiva para a criação de ferramentas computacionais de elevado desempenho para o processamento da Língua Portuguesa, disponibilizando-as à comunidade em geral e aos cidadãos em particular”
A implementação do projeto será efetuada através da colaboração entre uma equipa de investigação portuguesa e outra galega. A portuguesa, constituída pelos Professores Paulo Quaresma, Vítor Nogueira e Pedro Salgueiro, pertence ao polo na Universidade de Évora do Centro de Investigação Algoritmi e ao Laboratório Associado em Sistemas Inteligentes (LASI), sendo o trabalho desenvolvido no contexto do projeto FCT AiBERTa. Este projeto, para a criação de um modelo de língua BERT pré-treinado para o português europeu baseado no Arquivo.pt, aprovado em julho de 2022, foi um projeto pioneiro na área dos LLMs para português. A equipa galega pertence ao "Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS)", associado à Universidade de Santiago de Compostela. Esta participação enquadra-se nos projetos Nós e ILENIA e tem como foco o desenvolvimento de recursos e modelos de IA para o galego e para as línguas oficiais de Espanha.
No âmbito desta colaboração, já foi desenvolvido um modelo de linguagem generativa inovador baseado nas variantes portuguesa e galega (Carvalho_pt-gl), representando um avanço significativo na integração destas línguas em modelos de inteligência artificial. O Congresso Internacional de Inteligência Artificial EPIA2024, realizado recentemente em Viana do Castelo, reconheceu com o "Best Application Paper Award" o artigo ‘A Galician-Portuguese Generative Model’, onde se descreve este modelo e o seu desempenho em tarefas de Processamento de Língua Natural. O trabalho realizado teve como suporte os supercomputadores Vision do Laboratório "BigData@UE" da Universidade de Évora e o Finisterrae III do Centro de Supercomputação da Galiza (CESGA).
O modelo existente, de 1,3 mil milhões de parâmetros e treinado com mais de 6 mil milhões de palavras, está disponível para ‘download’ gratuito e projetado para processar e gerar conteúdo em português europeu e em galego. Está em curso, com recurso ao supercomputador Mare Nostrum 5 e no contexto do projeto FCT aprovado, a criação de uma versão de maior dimensão, com 8 mil milhões de parâmetros, que será também disponibilizada gratuitamente.