General Catalyst es la gestora de fondos de origen estadounidense que promueve la creación de una Champions League de la IA en Europa. Para demostrar que predica con el ejemplo, el pasado junio lideró la ronda de 600 millones de euros levantada por la francesa Mistral, la gran esperanza continental (la única) en la carrera que EEUU y China libran por imponer sus grandes modelos de lenguaje (LLMs en sus siglas en inglés).
Que General Catalyst se fije en Mistral no es casualidad. La compañía cofundada por Arthur Mensch (CEO), Timothee Lacroix (CTO), Guillaume Lample, Charles Gorintin y Jean Charles Samuelian, nacida apenas en abril de 2023, convence y mucho a los inversores. Hasta la fecha han depositado en sus arcas 1.100 millones, valorándola así en 6.100 millones y convirtiéndola en la única alternativa a los LLMs diseñados por OpenAI, Meta, Google, Anthropic o DeepSeek.
Pero el respaldo obtenido por Mistral va más allá de la esfera privada. El presidente Emmanuel Macron ha prometido un paquete de inversiones de 109.000 millones para la industria local de la IA sin dejar de mimar a su campeón nacional, firmante reciente de potentes contratos con la agencia estatal de empleo (France Travail) y el Ministerio de Defensa. Mensch y su equipo también han sabido moverse en la esfera de las grandes corporaciones, donde han captado a clientes como AXA, Belfius Bank, BNP Paribas, IBM, Orange y SAP. Asimismo, en febrero del año pasado, Mistral cerró con Microsoft un acuerdo para acceder a la infraestructura de supercomputación de Azure y a sus usuarios.
Este umbral cuantitativo y cualitativo, extraordinario en la UE, sigue siendo escaso si se recurre al termómetro de los líderes mundiales. En octubre de 2024, OpenAI desveló la mayor ronda de inversión de la historia, 6.600 millones de dólares, seis veces más que lo captado en total por el unicornio francés.
La cuestión lingüística
Buena parte de la narrativa que envuelve a los LLMs se alimenta del asunto idiomático. En realidad, tal y como apunta David Villalón, CEO de la española Maisa AI, desempeña aquí un papel clave el elemento marketiniano, ya que al fin y al cabo los modelos se entrenan con la información disponible en internet y este corpus está disponible mayoritariamente en inglés, la lengua de los documentos científicos, las transacciones internacionales y, en muchos casos, las redes sociales.
Mistral afirma en su página web que es capaz de desenvolverse "en un nivel nativo" en inglés, francés, español, alemán e italiano (cita las lenguas en ese orden). Después muestra un cuadro estadístico donde se acredita el rendimiento del LLM en los cuatro últimos, con la lengua española despuntando por su buen desempeño.
"Hay benchmarks que demuestran que el idioma con mayor corpus será aquel que se comporte mejor. Cuando un LLM dice que es nativo en francés o en alemán, lo que se afirma en realidad es que hay una gran cantidad de datos también en esos idiomas y que esos datos han permitido entrenar al modelo. Es como tener una tarta y saber que la mitad está en inglés y que la otra mitad se reparte entre el resto. No es que Mistral, por lo tanto, esté preparado para utilizarse primordialmente en francés. De hecho, por defecto, en el prompt de la propia aplicación, Mistral y cualquier otra herramienta competidora saben que cuando un usuario utiliza un idioma, debe contestar en ese idioma. Por consiguiente, no se aporta algo extra. Igual que una persona no es nativa en dos idiomas, tampoco un LLM puede serlo", explica Villalón.
