Presentan 'Carballo' o primeiro modelo lingüístico de IA para o galego

Xurde como froito dos proxectos de investigación Nós e ILENIA, promovidos por Xunta e Ministerio

O Proxecto Nós, a iniciativa de produción de tecnoloxías lingüísticas para o seu emprego en dispositivos intelixentes que desenvolven o CiTIUS (Centro Singular de Investigación en Tecnoloxías Intelixentes) e o ILG (Instituto da Lingua Galega) vén de anunciar a creación de Carballo: un modelo de linguaxe de gran escala de alta calidade en galego, que permitirá a creación de novas ferramentas e aplicacións de IA xerativa para a lingua propia de Galicia. Carballo é froito de dous proxectos de investigación: o devandito Nós, impulsado pola Xunta de Galicia, e ILENIA, promovido polo Ministerio para a Transformación Dixital e da Función Pública para o impulso de tódalas linguas oficiais do Estado. Neste sentido, o modelo galego está baseado en Flor1.3, o modelo homólogo desenvolvido previamente para o catalán no marco do proxecto AINA-ILENIA, que se desenvolve no Barcelona Supercomputing Centre (BSC-CNS). Carballo foi publicado en aberto, a fin de que tanto persoas expertas como empresas de software poidan utilizar o modelo para desenvolver novos produtos, facer axustes ou mesmo integrar o seu uso en aplicacións de utilidade para o público xeral.

Carballo conta cunha arquitectura GPT de 1.300 millóns de 'parámetros'. Ou o que é o mesmo: 1.300 millóns de valores axustados ao longo dun proceso de adestramento a partir de corpus de texto, encamiñado a lograr que o modelo se desenvolva cunha alta competencia no uso do galego; o seu adestramento foi un gran desafío computacional, sendo necesaria a colaboración do CESGA (Centro de Supercomputación de Galicia), que conta co segundo supercomputador máis potente de todo o territorio nacional. Para o adestramento de Carballo usouse un corpus masivo de textos en galego, chamado CorpusNós, formado por aproximadamente 2.100 millóns de palabras: o maior corpus textual en galego existente ata o día de hoxe. Unha parte significativa deste corpus foi elaborada no contexto do propio Proxecto Nós, en virtude de numerosos convenios e acordos de cesión con empresas e organizacións fornecedoras de datos textuais. Así, neste ciclo de desenvolvemento cooperativo desde os datos ‘en bruto’ teñen participado medios de comunicación como NósDiario, PrazaPública ou a CRTVG; as editoriais Galaxia e Laiovento; e diversas institucións públicas, como o Parlamento de Galicia, o Consello da Cultura Galega, as deputacións da Coruña e de Lugo ou a Real Academia Galega, entre moitas outras.

Carballo e Carvalho
O modelo fundacional Carballo para o galego é un paso máis na estratexia de dispoñer das capacidades científico-tecnolóxicas para non depender de grandes corporacións alleas á realidade social e cultural de Galicia, creando recursos abertos e libres para que outras empresas e institucións poidan desenvolver tecnoloxías lingüísticas en galego de amplo interese social, e mesmo económico. Trátase, segundo aseguran desde o CITIUS, de axudar a crear un tecido empresarial dinámico que medre cos últimos avances da intelixencia artificial e que xire á volta da lingua galega, potenciando tamén as relacións co ámbito lusófono e, deste xeito, co mercado lingüístico do portugués, próximo aos 300 millóns de falantes. Por iso, xunto a Carballo, foi tamén desenvolvido en colaboración coa Universidade de Évora, o primeiro modelo fundacional galego e portugués, Carvalho, co obxectivo de fortalecer a nosa lingua mediante a inclusión do portugués europeo.
Ligazóns