Laboratorio de Lingüística Informática - UAM
AI & ML interests
Natural Language Processing, Language Resources, Datasets for evaluation
El Laboratorio de Lingüística Informática (LLI) es un grupo de investigación reconocido por la Universidad Autónoma de Madrid (UAM).
La historia del Laboratorio de Lingüística Informática se inició en el Centro de Investigación UAM-IBM, poco después de la incorporación a la UAM de Francisco Marcos Marín como Catedrático de Lingüística General, en 1981.
En los años ochenta los trabajos realizados tuvieron un doble objetivo: por un lado la colaboración con IBM, en proyectos de carácter inmediato, como correctores ortográficos, léxicos, desarrollo de instrumentos para los nuevos ordenadores personales. Por otra parte se iniciaron los trabajos para la aplicación de los ordenadores a la Filología, sobre todo en el terreno de las ediciones unificadas y críticas. Este segundo trabajo daría lugar más adelante a programas de edición crítica electrónica, como UNITE y a proyectos mucho más amplios, como ADMYTE, el Archivo Digital de Manuscritos y Textos Electrónicos.
El trabajo iniciado en el Centro Científico UAM-IBM se extendió al centro similar de IBM en Heidelberg, gracias a la beca concedida por la Alexander von Humboldt Stiftung a Francisco Marcos Marín. Entre 1985 y 1987 se preparó la primera gran aplicación de los programas informáticos a la edición de textos, con su aplicación al Libro de Alexandre. Las actividades realizadas entre Madrid y Alemania pusieron al grupo en contacto con otros grupos europeos que se iniciaban en actividades lingüísticas e informáticas, especialmente con el grupo que iniciaba el proyecto EUROTRA, de traducción por ordenador, patrocinado por la entonces Comisión Europea.
Si bien es cierto que hay que buscar en el Centro Científico UAM-IBM el origen del Laboratorio, su concreción como tal no llegó hasta Eurotra. Junto a investigadores que habían trabajado en el Centro, como Antonio Moreno Sandoval, se incorporaron otros, como Fernando Sánchez León y Flora Ramírez Bustamante, que han sido los ejes de la actividad desarrollada en los 90.
A principios de los 90, a la actividad de Eurotra se sumó la de los archivos digitales patrocinada por la Sociedad Estatal del Quinto Centenario. Esto explica la bifurcación que se aprecia en la actividad del Laboratorio y sus proyectos, la orientación filológico-textual, por un lado, y la lingüística de corpus, por otro. Entre ambos extremos se tienden numerosos puentes, sin descuidar proyecciones hacia nuevas posibilidades. Por ello el Laboratorio es un centro de permanente inquietud, siempre abierto a colaboraciones y a consorcios, que ocupa un lugar propio en el conjunto de las relaciones de Informática y Lengua en España y el mundo hispano-hablante.
Desde el año 2000, el LLI se ha especializado en la compilación de corpus: corpus paralelos (árabe-español-inglés), de habla espontánea (C-ORAL-ROM), de habla infantil (CHIEDE), corpus multimodales (MAVIR), de aprendices de lenguas extranjeras (Corpus Oral de Español como Lengua Extranjera y Corpus Oral de Aprendientes de Francés) y corpus de lenguaje especializado (MultiMedica). También se han creado diversos recursos lingüísticos como bases de datos acústicas, aplicaciones de corpus para la enseñanza de lenguas (Textos de español oral, UAM Ediciones, 2010), diccionarios electrónicos (de japonés-inglés-español, y de preposiciones del francés), y un analizador morfológico de verbos del árabe (JABALÍN).
El LLI mantiene una fluida colaboración con diferentes investigadores y profesores de los Departamentos de Ingeniería Informática e Ingeniería de Telecomunicación en el campus de Cantoblanco. Desde diciembre de 2009, el LLI colabora con el Instituto de Ingeniería del Conocimiento, institución privada de I+D+i sin ánimo de lucro, sita en el campus de la UAM. En 2018 se ha dotado una cátedra Universidad-Empresa, la Cátedra UAM-IIC en Lingüística Computacional, dirigida por Antonio Moreno Sandoval y que se centra en la formación de investigadores y en el desarrollo de proyectos de PLN. En los últimos años, destacan los trabajos en procesamiento médico (Multimédica y NLPMedTerm) y procesamiento de narrativa financiera (FinT-esp y CLARA-FIN). Algunos de los modelos y datasets desarrollados recientemente están accesibles en Hugging Face