O centro Ramón Piñeiro presenta o CORGA, un corpus de referencia do galego

Os ordenadores coa lingua

Este fin de semana foi prólixo para a lingua. Entre os coletazos da polémica sobre a decisión da Real Academia Galega (RAG) de rexeitar a reforma do galego proposta polas tres universidades e o Insituto da Lingua Galega (ILG), destacou o remate da VIII Conferencia Internacional de Linguas Minoritarias. Un evento organizado pola Xunta de Galicia no que houbo presentacións de proxectos, investigacións e programas informatizados. Entre o máis destacado estaban os proxectos do Ramón Piñeiro que deu a coñecer a fase experimental do CORGA, un corpus informatizado de textos galegos que xa leva catalogado case trece millóns de palabras.


Sobre o CORGA



Desde hai un tempo un equipo de investigadores do Centro Ramón Piñeiro leva traballando no escaneo de textos galegos (xornais, revistas, libros e fontes orais) para conseguir un corpus informatizado. Un proceso de investigación dividido en lustros, procurando darlle unha maior representatividade ós períodos máis recentes.
A investigación, posta en marcha hai uns anos ten na actualidade catalogado case 13 millóns rexistros, con 235.179 formas que non se repiten. No traballo inicial o que se fai é un escaneado dos documentos, coa súa correspondente catalogación (por autor, data, medio e temática - dividido en: economía e política, cultura e artes, ciencias sociais, ciencias e tecnoloxía e outros).
Esta é unha primeira parte do proxecto que pretende chegar ata os 25 millóns de formas. A iso segueralle, unha anotación de tipo gramatical (por categorías de cada termo) que serviría de corpus para poder elaborar unha gramática baseada no uso real das palabras.
De momento, todos os interesados en comprobar os fondos informatizados polo CIRP poden facelo na rede tras unha previa inscripción. O que supón un material de referencia para numerosos investigadores e lingüístas baseado no uso real das formas e non só na súa experiuencia persoal.












O Bilega, a DXPL e outros proxectos informáticos



O Centro Ramón Piñeiro aproveitou a presentación da fase experimental do CORGA para dar a coñecer outras investigacións que se están a desenvolver noutras áreas temáticas da propia institución. Foi o caso do Bilega (Bibliografía Informatizada de Lingua Galega) que é, segundo fontes do CIRP " unha base de datos que contén información bibliográfica, con anotacións, sobre traballos de investigación ou de divulgación e de opinión que se ocupan da lingua galega -de forma exclusiva ou parcial- nas diferentes fases do seu desenvolvemento histórico.
Pero as investigacións do CIRP non foron as únicas novidades que relacionen lingua e investigación que se presentaron no congreso. De feito, a Dirección Xeral de Política Lingüística aproveitou o congreso para presentar a nova web. Un sitio que inclúe correctores en lingua galega, dicionarios, unha historia da lingua glega, a lexislación, os fondos da Revista Galega do Ensino, bases de datos e xogos en rede para que os máis novos se inicien no galego.






E, por último, as conclusións do Congreso



A automatización dos sistemas da información e a súa aplicación no uso da lingua foi unha das conclusións da VIII Conferencia Internacional de Linguas Minoritarias que se celebrou estes días en Compostela. De feito, os expertos alí congregados asumiron a importancia da necesidade dun forte investimento nas novas tecnoloxías, xa que por aquí se garante o futuro das linguas minorizadas. Un sentir xeralizado que se plasmou durante todo o congreso na importancia da educación (e a adaptación tecnolóxica para o ensino).
Ademais, no documento de conclusión da Conferencia recóllense oito puntos resumidos no interese na importancia de centrar a recuperación das linguas minorizadas como realidades vivas.