Partilhe nas Redes Sociais

Amália, o LLM português, vai custar 5,5 milhões e estará pronto em 18 meses

Publicado em 2 Dezembro 2024 | 134 Visualizações

Luís Montenegro fez o anúncio durante a última edição da Web Summit, sem grandes detalhes, mas um comunicado do Governo já veio dar pormenores sobre o calendário de desenvolvimento do “primeiro Modelo de Linguagem em Grande Escala de língua portuguesa de Portugal e o investimento previsto. 

O LLM Português revelado pelo Primeiro-Ministro vai custar 5,5 milhões de euros, financiados através do Plano de Recuperação e Resiliência. Vai chamar-se Amália e a primeira versão multimodal deve estar pronta em 18 meses. Já no primeiro trimestre do próximo ano será lançada a primeira versão beta. Todas as versões serão disponibilizadas de forma gratuita e open source.

A operacionalização da iniciativa vai ser da responsabilidade da AMA – Agência para a Modernização Administrativa, que terá a cargo a futura disseminação por entidades públicas e privadas. A Fundação para a Ciência e Tecnologia vai ser responsável por coordenar o treino e desenvolvimento do LLM com centros de investigação, assegurar a infraestrutura necessária para o treino e alojamento do LLM, tratamento e curadoria dos dados que serão utilizados para este treino e desenvolvimento. 

Centros de investigação Nova LINCS lideram treino e desenvolvimento do “ChatGPT português”

O treino e desenvolvimento do modelo vai ser liderado pelos centros de investigação Nova LINCS da Universidade Nova de Lisboa, Instituto de Telecomunicações e Instituto Superior Técnico e vai também integrar «outros centros de investigação nacionais com reconhecido mérito no âmbito da Inteligência Artificial», tirando partido de projetos já em curso nesta área (como o EuroLLM, o GlórIA e ou v-Glória) e da rede europeia de computação de alta-performance EuroHPC.

O LLM Português vai ser desenvolvido tendo como prioridades a preservação da soberania nacional; distinguir as diferentes variantes da língua portuguesa; reconhecer elementos da cultura e história de Portugal; permitir o controlo dos dados utilizados para a sua aprendizagem; e assegurar condições de armazenamento e utilização de dados sensíveis,  elenca o Governo. Sobre este último ponto, destaque para a preocupação com os dados da Administração Pública.

«Existem no mercado inúmeros LLM estrangeiros, que na sua grande maioria são modelos desenvolvidos por empresas privadas e otimizados para processar e gerar texto em língua inglesa». Como o português não é língua de origem, acrescenta o Governo, «apresentam um desempenho menos positivo no processamento e geração de texto» nas línguas não nativas, sobretudo quando estão em causa dados sensíveis. Por essa razão, «reduzem a autonomia e soberania de dados, forçando que quem os utiliza tenha de partilhar os dados com estes fabricantes».

Primeira iniciativa da Agenda Nacional de Inteligência Artificial

A versão final do «LLM será diferenciadora na interpretação e geração de texto de língua portuguesa, no conhecimento que tem da literatura, cultura e história de Portugal», explica-se ainda. O Amália não tem como propósito «responder a perguntas genéricas em que o foco é a realização de raciocínios ou cálculos complexos».

Um Comité de Acompanhamento Especializado, constituído por peritos em Inteligência Artificial, vai assegurar as melhores práticas de desenvolvimento de Modelos de Linguagem de Grande Escala, cumprimento dos princípios éticos e de segurança. Aqui vão estar representadas entidades como o Center for Responsible AI, liderada pela Unbabel que também tem vindo a desenvolver um LLM em português. 

O comunicado com os detalhes sobre o Amália foi divulgado na sequência da reunião interministerial entre os dois Ministros que coordenam a iniciativa: a Ministra da Juventude e Modernização e o Ministro da Educação, Ciência e Inovação, explicou a nota.

O documento lembra ainda que, tal como Portugal quer fazer, outros países têm procurado compensar esta desvantagem das próprias línguas com LLMs próprios. São exemplos disso o ALIA, que fala castelhano, catalão, galego e basco, ou o Viking 7B, que fala dinamarquês, finlandês, norueguês, islandês e sueco. 

O Amália – Assistente Multimodal Automático de Linguagem com Inteligência Artificial é a primeira iniciativa conhecida da Agenda Nacional de Inteligência Artificial que vai ser apresentada no 1.º trimestre de 2025.


Publicado em:

Atualidade

Partilhe nas Redes Sociais

Artigos Relacionados