Primero fue ChatGPT, un modelo de inteligencia artificial con la capacidad aparentemente asombrosa de imitar el lenguaje humano. Ahora es creado por Bloomberg BloombergGPT, el primer modelo de lenguaje importante construido específicamente para la industria financiera.
Al igual que ChatGPT y otros modelos de lenguaje populares introducidos recientemente, este nuevo sistema de IA puede escribir texto de calidad humana, responder preguntas y realizar una variedad de tareas, lo que le permite manejar un conjunto diverso de tareas de procesamiento de lenguaje natural exclusivas de la industria financiera.
Mark Dredze, profesor asociado de informática en la Escuela de Ingeniería Whiting de la Universidad Johns Hopkins e investigador visitante en Bloomberg, formó parte del equipo que lo creó. Dredze también es el director inaugural de investigación (Fundamentos de IA) en la nueva AI-X Foundry en Johns Hopkins.
The Hub habló con Drega sobre BloombergGPT y sus implicaciones más amplias para la investigación de IA en Johns Hopkins.
¿Cuáles eran los objetivos del proyecto BloombergGPT?
Mucha gente ha visto ChatGPT y otros grandes modelos de lenguaje, que son nuevas e impresionantes tecnologías de IA con una gran capacidad para procesar el lenguaje y responder a las solicitudes de las personas. El potencial de estos modelos para transformar la sociedad es evidente. Hasta la fecha, la mayoría de los modelos se centran en casos de uso de propósito general. Sin embargo, también necesitamos modelos específicos de dominio que comprendan las complejidades y los matices de un dominio determinado. Si bien ChatGPT es impresionante en muchas aplicaciones, necesitamos modelos especializados para la medicina, la ciencia y muchos otros campos. No está claro cuál es la mejor estrategia para construir estos modelos.
En colaboración con Bloomberg, exploramos esta pregunta construyendo un modelo en inglés para el dominio financiero. Tomamos un enfoque novedoso y construimos un enorme conjunto de datos de texto financiero y lo combinamos con un conjunto de datos de texto de propósito general igualmente grande. El conjunto de datos resultante incluía alrededor de 700 mil millones de tokens, que es unas 30 veces más que todo el texto de Wikipedia.
Entrenamos un nuevo modelo en este conjunto de datos combinados y lo probamos en varias tareas de lenguaje de documentos financieros. Descubrimos que BloombergGPT supera a los modelos existentes de tamaño similar en tareas financieras por un amplio margen. Sorprendentemente, el modelo aún se desempeñó a la par con los puntos de referencia de propósito general, aunque nuestro objetivo era construir un modelo específico de dominio.
¿Por qué las finanzas necesitan su propio modelo de lenguaje?
Si bien los avances recientes en los modelos de IA han mostrado aplicaciones nuevas e interesantes en múltiples dominios, la complejidad y la terminología única del dominio financiero justifican un modelo de dominio específico. Esto no es diferente de otros campos especializados, como la medicina, que contienen vocabulario que no se puede encontrar en un texto de propósito general. El modelo específico de finanzas podrá mejorar las tareas de NLP de finanzas existentes, como el análisis de sentimientos, el reconocimiento de entidades nombradas, la clasificación de mensajes y la respuesta a preguntas, entre otras. Sin embargo, también esperamos que los modelos específicos de dominio desbloqueen nuevas posibilidades.
Por ejemplo, imaginamos a BloombergGPT transformando consultas en lenguaje natural de profesionales financieros en el lenguaje de consulta válido de Bloomberg, o BQL, una herramienta extremadamente poderosa que permite a los profesionales financieros especificar e interactuar rápidamente con datos en diferentes clases de valores. Entonces, si el usuario pregunta “Dame el último precio y capitalización de mercado de Apple”, el sistema devolverá get(px_last,cur_mkt_cap) por([“AAPL US Equity’]). Esta cadena de código les permitirá importar rápida y fácilmente los datos obtenidos en sus herramientas de análisis de datos y gestión de carteras.
¿Qué has aprendido mientras construías el nuevo modelo?
Construir estos modelos no es fácil, y hay una gran cantidad de detalles que deben ajustarse adecuadamente para que funcionen. Aprendimos mucho leyendo artículos de otros grupos de investigación que construyeron modelos de lenguaje. Para contribuir a la comunidad, escribimos un artículo de más de 70 páginas que detalla cómo creamos nuestro conjunto de datos, las elecciones que hicimos en la arquitectura del modelo, cómo entrenamos el modelo y una evaluación exhaustiva del modelo resultante. También hemos publicado “crónicas de formación” detalladas que proporcionan una descripción narrativa del proceso de formación del modelo. Nuestro objetivo es ser lo más abiertos posible sobre cómo construimos el modelo para apoyar a otros grupos de investigación que puedan estar buscando construir sus propios modelos.
¿Cuál fue tu papel?
Este trabajo fue una colaboración entre el equipo de ingeniería de IA de Bloomberg y el grupo de investigación y productos de ML en la oficina principal de tecnología de la empresa, donde soy investigador visitante. Fue un esfuerzo intenso durante el cual discutimos regularmente los datos y las decisiones del modelo y realizamos evaluaciones detalladas del modelo. Juntos leíamos todos los artículos que podíamos encontrar sobre el tema para obtener aportes de otros grupos y, a menudo, tomábamos decisiones juntos.
La experiencia de ver un modelo entrenar durante semanas es intensa, ya que hemos examinado muchas métricas del modelo para comprender mejor si el entrenamiento del modelo está funcionando. Se necesitó un gran esfuerzo de equipo para compilar la extensa revisión y el artículo en sí. Me siento honrado de ser parte de este fantástico grupo.