Lectura 3:00 min

Solo 2% de los datos para entrenar la Inteligencia Artificial está en español: OCDE

El inglés es la lengua que domina entre los conjuntos de datos que se utilizan para entrenar modelos de Inteligencia Artificial, como ChatGPT, de OpenAI, y Gemini, de Google.

Publicado: 03.05.2024 - 12:28

El inglés es la lengua que domina en los conjuntos de datos utilizados para entrenar los modelos de Inteligencia Artificial, un fenómeno que puede ampliar la brecha tecnológica entre países anglófonos y no anglófonos, de acuerdo con cifras de la Organización para la Cooperación y el Desarrollo Económicos (OCDE).

Después del inglés, en el que se encuentran 57% de los datasets, el chino es la segunda lengua con una mayor cantidad de estos conjuntos, con 6 por ciento. Le siguen el ruso y el francés, ambos con 3%, y, al igual que en el caso del coreano, el alemán y el japonés, sólo 2% de los sets para entrenar modelos de Inteligencia Artificial está en español.

Si bien el inglés es la lengua más hablada del mundo, con un total de 1,456 millones de hablantes; el chino mandarín cuenta con 1,138 millones; el hindi tiene 609 millones 500,000 hablantes y el español cuenta con 559 millones 100,000 hablantes, lo que muestra la disparidad en el uso de datasets en lenguas distintas a la anglófona.

Adopción inequitativa

De acuerdo con una oficial de la OCDE, una de las preocupaciones de los países miembros de la organización es que la Inteligencia Artificial no sea adoptada de forma equitativa, lo que se ve impulsado por el hecho de que la mayoría de los modelos de Inteligencia Artificial sean entrenados con datos en inglés.

“Si los modelos fundacionales no están disponibles en otras lenguas, el desarrollo de la Inteligencia Artificial en los países que hablan esas lenguas será mucho más lento y eso hará que los beneficios en mejoras a la productividad y en la solución de otros problemas se vean rezagados en esos países”, dijo en conferencia de prensa.

Soluciones

Una de las soluciones a este problema que se han llevado a cabo en varios países miembro de la OCDE son iniciativas para desarrollar repositorios de datos abiertos y disponibles para que los desarrolladores puedan entrenar modelos fundacionales en lenguas distintas al inglés.

A esto se suma, de acuerdo con la oficial de la OCDE, la inversión en investigación y desarrollo; el entrenamiento de pequeñas y medianas empresas (pymes) en la adopción de estas tecnologías, algo que cada país está haciendo de forma distinta.

Aunque los principios establecidos por la OCDE para un desarrollo seguro y transparente de la Inteligencia Artificial no tienen un carácter vinculante para los países que integran la organización, estos han sido utilizados, al igual que otras guías en la materia, para la creación de políticas públicas y legislaciones acerca de esta tecnología.

El mercado mexicano de Inteligencia Artificial alcanzará un valor de 3,700 millones de dólares en 2024, un incremento de 30% con respecto al año previo, cuando su valor fue de 2,820 millones de dólares, según datos de Statista Market Insights.

rodrigo.riquelme@eleconomista.mx