Co-fundadores de ClibrAIn

Ya existe una larga lista de modelos de lenguaje grande (LLM), desde GPT-4 de OpenAI hasta PaLM2 de Google y LLaMA Meta, por nombrar solo tres de los ejemplos más famosos. La distinción entre LLM está determinada por factores que incluyen la arquitectura subyacente del modelo, los datos de entrenamiento utilizados, las ponderaciones del modelo utilizadas y cualquier ajuste fino para contextos/objetivos específicos, así como el costo de desarrollo (y el presupuesto relativo del modelo). fabricante para derrochar estos costos), todo lo cual puede afectar la forma en que funciona este tipo de IA generativa en respuesta a una consulta de usuario de lenguaje natural.

La cuestión es que es poco probable que esta larga lista de LLM deje de crecer en el corto plazo, dada la cantidad de variables con las que los desarrolladores de IA pueden jugar y los contextos en los que pueden apoyarse cuando intentan obtener el mejor rendimiento generativo de IA para un uso determinado. caso.

Otro factor en los resultados es la medida en que el desarrollo de LLM se ha centrado en el inglés, con menos atención a los modelos de capacitación en otros idiomas (generalmente es más barato/más fácil obtener datos en inglés para fines de capacitación). Esto significa que es probable que los LLM respondan mejor a las consultas en inglés que a las preguntas en otros idiomas. Entonces, los modelos entrenados en idiomas distintos al inglés probablemente representen una oportunidad bastante notable para continuar construyendo esta lista.

reunirse para esto línea cero: Un LLM adaptado al español lanzado la semana pasada por la start-up AI con sede en Madrid librainque cree haber detectado un hueco para unirse a la carrera de la IA generativa mediante el desarrollo de modelos optimizados para hispanohablantes.

Señala que el español no solo es uno de los idiomas más hablados en el mundo, sino que también cuenta con una diversidad considerable en cuanto a dialectos y variantes, ya que se habla en unos 20 países en muchos continentes (y contextos culturales) – sugiriendo la turbidez del agua para las actuaciones de los principales modelos, en los que no se centra tan exhaustivamente Español.

Uno de esos gigantes, ChatGPT OpenAI, es compatible con el idioma español. Como otros. Pero Clibrain dice que un enfoque lingüístico completo permitirá que su próximo modelo central, así como una serie de modelos entrenados en dominios que planea desarrollar además de uno grande, podrá analizar y comprender más matices del idioma español que el LLM promedio. , gracias a la formación sobre un corpus de datos dedicado en español.

El lanzamiento de Lince Zero es el primer paso de una ambiciosa hoja de ruta. Este LLM es depende en gran medida de las tecnologías de código abierto existentes, por lo que aún no puede presumir de su propio modelo base. Pero dice que llegará pronto.

Co-fundadores de ClibrAIn

Cofundadores de Clibrain (Crédito de la imagen: ClibrAIn)

La cofundadora y directora ejecutiva, Elena González-Blanco, aporta experiencia en investigación lingüística y poesía a la startup, junto con un enfoque profesional en IA (o I A como se traduce en español), incluidos los años dedicados a trabajar en iteraciones anteriores de la tecnología de procesamiento de lenguaje natural (NLP) y adquirir experiencia en la industria en insurtech y fintech (en empresas como Indra y Banco Santander).

Sin embargo, señala que sus años de investigación lingüística han sido una contribución particularmente crucial para el proyecto, lo que le permitió a Clibrain adquirir datos de capacitación únicos para respaldar sus ambiciones de modelado.

Contando con la calidad del lenguaje

“Tenemos un cuerpo [of training data] que es único, dice. “Soy lingüista, tengo, digamos, 15 años de investigación sobre la historia del lenguaje, la lengua española… muchos contactos que aún no han sido utilizados para la formación. Así que tenemos un cuerpo único. [as a differentiator]”.

“Creemos que hay una oportunidad muy interesante para nosotros porque es cierto que están sucediendo muchas cosas en el mundo de la IA, pero el mercado de habla hispana está completamente en el segundo nivel”, también le dice a TechCrunch. “La calidad de lo que construimos, lingüísticamente, varía mucho. Entonces no se trata de eso [to build] modelo masivo, pero un modelo de muy alta calidad”.

El modelo debut de Clibrain, que se llama modelo Lince Zero (y es de código abierto), es un probador de los parámetros 7BN del modelo más potente (fundamental) (parámetros 40BN) que tiene en proyecto, que simplemente se llamará Lince ( una palabra que significa lince en inglés; también conocido como una referencia al icónico pero rara vez visto gato salvaje de España).

Como puede ver en los números de parámetros, estos LLM están lejos de pretender ser los modelos más grandes del bloque. Pero, como argumenta González-Blanco, Clibrain cree que el tamaño del modelo per se no será una característica decisiva en términos de generar una ventaja de rendimiento en torno a una mejor comprensión del español, sino más bien la atención a los detalles lingüísticos (y espera darle una ventaja en mercados españoles). Básicamente, se espera que haya un grupo de usuarios de habla hispana que estén dispuestos a intercambiar un poco de capacidades (y/o potencia) de inteligencia artificial generativa de vanguardia por un mayor nivel de comprensión del idioma nativo.

Y en ese frente, es seguro decir que las cosas que se pierden en la traducción pueden generar mucha fricción molesta. Entonces, suponiendo que Lince realmente pueda proporcionar, y mantener, una ventaja lingüística para las consultas en español, esto podría ser algo para (al menos) algunos de los cerca de 500 millones de hablantes nativos de español en todo el mundo que podrían terminar usando este tipo de inteligencia artificial. herramienta.

Por supuesto, esta no es la primera empresa en ver el valor de optimizar para un idioma específico. Actualmente hay muchos LLM que no están optimizados para el inglés, como el modelo de idioma chino de Baidu, Ernie. O esto Una familia de modelos LLM adaptada al idioma alemán. El gigante tecnológico surcoreano Naver también está trabajando en modelos generativos de IA entrenados en coreano. Y es seguro asumir que veremos más LLM dirigidos a comunidades que no hablan inglés, al menos para los idiomas más hablados.

Clibrain tampoco es el primer modelo de IA conversacional que se centra en el español. Proyecto MarIA del Centro de Supercomputación de Barcelona, que se lanzó en 2021, afirmó ser el primer sistema de IA “masivo” en español. Pero Clibrain afirma haber superado a MarIA y armar el modelo tecnológico más “avanzado” enfocado en el mercado de habla hispana.

Según González-Blanco, el desempeño de Lince Zero es equivalente a GPT-3 mientras que ella dice que el desempeño de MarIA es equivalente a GPT-2. (Aunque comparar el rendimiento del idioma LLM es un negocio de vanguardia en sí mismo. Aunque en este frente, Clibrain alienta a los hispanohablantes a verificar lo que se ha construido y comenzar a generar comentarios).

A diferencia de Lince Zero, el próximo modelo de Lince (completo) no será de código abierto. En su lugar, el modelo patentado estará disponible a través de la API para los clientes de pago que deseen conectarse al modelo que ha sido entrenado en el conjunto de datos en español. La startup también ofrecerá acceso al integrar el modelo en tres aplicaciones de comunicación y productividad que ofrece (llamadas CliChat, CliCall y CliBot).

El desarrollo también continuará y tiene la intención de ofrecer más modelos patentados, incluidos modelos multimodales que pueden responder a imágenes y sonido, no solo a texto. Así que hay mucho en la hoja de ruta del producto para mantener ocupado al equipo.

Si bien Clibrain usó mucha tecnología de código abierto para construir el Lince Zero (documentación de su Tarjeta de modelo de cara abrazada predice que está basado en el Falcon-7B, sintonizado con una combinación Alpaca Y Muñequita datasets, traducido al español y “ampliado” a 80,000 ejemplos) afirma no solo usar arquitecturas existentes, sino que anuncia su propio talento en ingeniería de IA.

La puesta en marcha se fundó en abril, por lo que solo tiene unos tres meses, lo que parece subrayar el ritmo vertiginoso de desarrollo en el campo de la IA generativa en estos días, con tantas bibliotecas ricas de código abierto para usar y calcular el costo de los modelos de entrenamiento. que ha aumentado significativamente ha disminuido en comparación con los últimos años. Pero no estaba comenzando desde cero porque se escindió de otra empresa emergente, González-Blanco (una entidad de préstamos con garantía de automóviles llamada Clidrive).

Explica que estaban experimentando con IA internamente en esta empresa, pero decidieron que el tamaño de la oportunidad de desarrollar un LLM adaptado a los mercados españoles merecía abrir una startup separada, y aquí están: un equipo multidisciplinar de cerca de 30 empleados con un laboratorio de investigación y desarrollo centrado en la inteligencia artificial generativa.

“Fue muy fácil para nosotros construir este grupo de investigación y enfocarnos en lo que ya estábamos haciendo”, agrega González-Blanco.

Los otros (cuatro) cofundadores son Pablo Fernández (Presidente), Pablo Molina (CTO), Paul Martz (CPO) y David Villalón (CAIO).

Los cofundadores se han estado recuperando hasta ahora, utilizando fondos recaudados de salidas anteriores de nuevas empresas. Lo que significa que, tal vez notablemente en estos tiempos impulsados ​​​​por la IA, donde grandes cantidades de efectivo de los inversores se canalizan a empresarios enfocados en la IA, Clibrain aún no tiene una gran lista de inversores o un fondo de guerra profundo.

González-Blanco dice que querían centrarse en desarrollar modelos básicos y llevar sus primeros productos al mercado, en lugar de recaudar fondos externos. Sin embargo, agrega que es posible que deseen recaudar una ronda de inversión mayor que la que los fundadores pudieron realizar por su cuenta a medida que continúan avanzando con el plan de productos de Lince.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *