María, el primer sistema masivo de inteligencia artificial en lengua española, comienza a recopilar textos

11 de noviembre de 2021 – El proyecto MarIA está diseñado y financiado por el Language Model System y el Proyecto de Tecnología del Lenguaje de la Secretaría, creado en el Barcelona Supercomputing Center (BSC) a partir de los archivos de Internet de la Biblioteca Nacional de España (BNE). El Estado para la Digitalización y la Inteligencia Artificial (SEDIA), ha avanzado en su desarrollo y su nueva versión permite comprimir textos existentes y crear nuevos textos a partir de títulos o palabras.

Maria Project es el primer gran sistema de inteligencia artificial y se especializa en la comprensión y escritura del idioma español. Debido a su tamaño y capacidades, el español ocupa el tercer lugar entre los idiomas con los modelos de acceso abierto más grandes, después del inglés y el mandarín. Se construye a partir de la tradición documental digital de la Biblioteca Nacional de España, que monitoriza y archiva sitios web creados en español y está formada por el superordenador MareNostrum 4. Está publicado de tal manera que puede ser utilizado por numerosas aplicaciones por desarrolladores de aplicaciones, empresas, grupos de investigación y la comunidad en general.

Los últimos desarrollos de MarIA son un hito en la consecución de los objetivos de la Estrategia Nacional y Programa de Recuperación, Transformación y Elasticidad de la Inteligencia Artificial, que España busca liderar en el desarrollo de herramientas, tecnologías y aplicaciones. Lengua española en los campos de aplicación de la IA. En particular, el Programa Nacional de Tecnologías del Lenguaje se desarrolló con el objetivo de promover el procesamiento del lenguaje natural, la traducción automática y el desarrollo de sistemas de habla en español y lenguas cooficiales.

MarIA se creó en el Centro de Supercomputación de Barcelona y se formó con más de 135.000 millones de palabras del archivo web de la Biblioteca Nacional de España.

Modelos para comprender el lenguaje y modelos para la creación de textos.

El modelado del lenguaje es un sistema de inteligencia artificial que se compone de un conjunto de redes neuronales profundas que están capacitadas para comprender el lenguaje, expresar su vocabulario y significado, y escribir a nivel experto. Estos complejos modelos estadísticos combinan palabras en textos de forma sistemática y masiva, capaces de «comprender» no solo conceptos concisos sino también su contexto. Con estos modelos, los desarrolladores de varias aplicaciones pueden crear herramientas para una variedad de aplicaciones, como clasificar documentos o crear correctores de pruebas o herramientas de traducción.

La primera versión de Maria fue desarrollada por RoBERTa, una tecnología que crea modelos de lenguaje de tipo «encriptación». Este tipo de modelo proporciona una secuencia de texto que, por ejemplo, puede usarse para categorizar documentos, responder preguntas de opción múltiple y encontrar similitudes semánticas en diferentes textos o encontrar emociones expresadas en ellos.

La nueva versión está desarrollada con GPT-2, una tecnología muy avanzada que crea modelos de decodificadores y agrega funciones al sistema. Los modelos de decodificadores, si se les da una secuencia de texto, pueden generar nuevos textos. Se puede utilizar, por ejemplo, para crear resúmenes automáticos, facilitar una redacción compleja de acuerdo con diferentes perfiles de usuario, crear preguntas y respuestas, crear conversaciones complejas con los usuarios y escribir textos completos (que parecen estar escritos por humanos). De un título o de una pequeña cantidad de palabras.

Estas nuevas habilidades hacen de María una herramienta que, con una formación “temporal” adaptada a tareas específicas, puede resultar de gran utilidad para desarrolladores de aplicaciones, empresas y administraciones públicas. Por ejemplo, los modelos desarrollados hasta ahora en inglés se utilizan para crear y buscar sugerencias de texto en aplicaciones que resumen contratos o documentos complejos que describen los beneficios de un producto, dependiendo de lo que cada usuario quiera saber. Contáctenos para obtener información específica y otra información relevante en grandes bases de datos de texto.

“Con proyectos como la integración de MarIA en PERTE para el desarrollo de la economía digital en español, estamos dando pasos concretos hacia una inteligencia artificial que piense en español, que aumentará las oportunidades económicas para las empresas y España en la industria tecnológica porque el idioma es más que un dispositivo de comunicación. En la nueva realidad digital, es un proyecto de clase mundial ”, dijo Carme Articas, secretaria de Estado de Digitalización e Inteligencia Artificial.

“Como empresa responsable de los depósitos legales electrónicos, la Biblioteca Nacional de España (BNE) posee millones de sitios web, millones de términos repetitivos en un contexto determinado, y domain.es es el producto de muchas colecciones del sitio web español. el gran corpus de la lengua española que se habla hoy en nuestro país – explica Ana Santos, directora de BNE ”.

«Apreciamos los esfuerzos de SEDIA para potenciar problemas futuros como el empoderamiento del idioma español y el entorno de IA en el mundo digital», dijo Madio Valero, director de BSC-CNS.

Mar Pérez Morillo, directora de la división de procesos y servicios digitales de BNE, comentó: «Nos enfocamos en recopilar eventos que afectan o representan a la comunidad y su lenguaje». Del mismo modo, BNE colabora activamente con los centros regionales de recogida que utilizan las herramientas a su disposición. “Tenemos competencia contra el tiempo y estamos desarrollando estrategias y herramientas para combatir lo que ellos llaman la era oscura digital”, explicó Morillo.

Capacitado con 135 mil millones de palabras y 9,7 billones de funciones

En los modelos de lenguaje, el número de parámetros en los que se entrena el sistema es el elemento que da mayor potencial de generalización y, por tanto, de inteligencia. Los datos de la biblioteca nacional capacitada de María contienen más de 135 mil millones de palabras (específicamente 135,733,450,668), para un total de 570 gigabytes.

Para construir y entrenar a Maria, se utilizó la supercomputadora MareNostrum de BSC y requirió 9,7 billones de procesos (969.exaflops) de potencia de cálculo. Un flop (operación de coma flotante) es una unidad de medida que expresa la potencia de cálculo de una supercomputadora por segundo, y XA es el prefijo que expresa 10.¹⁸, Es decir, un billón.

De estos 969 Xflops, 201 son necesarios para procesar datos de la Biblioteca Nacional y eliminar todo el texto mal generado (números de página, gráficos, oraciones sin terminar, cifrados erróneos, transcripciones, etc.). Y guarde solo los textos correctos en español, en realidad se usa. Los 768 exoflops restantes se utilizaron para entrenar las redes neuronales del modelo GPT-2.

La versión actual de María dará lugar a ediciones especiales en una variedad de aplicaciones, incluidas biomedicina y legal, y abordará los problemas mencionados anteriormente.

Paralelamente, PlanTL continuará expandiendo María: capacitada con una gran cantidad de datos en línea con los nuevos desarrollos tecnológicos en el procesamiento del lenguaje natural (modelos más complejos que el GP-T2 actualmente implementado), creando lugares de trabajo que son convenientes para que las empresas utilicen María. y mejorar la calidad de los equipos y sistemas de investigación desarrollados en diversos dominios en entornos informáticos adecuados, incorporándolos en sistemas de calificación y certificación.

Fuente: Barcelona Supercomputing Center