
Coherencia de diferentes listas de materiales (columnas) entre temas (filas) en diferentes atributos demográficos (paneles). Cada punto indica un par de LM-tema; el color indica el grupo al que se ajusta mejor el modelo y el tamaño del punto indica la fuerza de ese ajuste (calculado como la relación entre la mejor y la peor representatividad de subgrupos para ese tema; consulte el Apéndice B .3 para más detalles). Encontramos inconsistencias significativas a nivel de materia, particularmente para los LM elementales, y una fuerte consistencia en el logro educativo para los LM capacitados en RLHF. Préstamo: arXiv (2023). DOI: 10.48550/arxiv.2303.17548
Los modelos de lenguaje detrás de ChatGPT y otras IA generativas se entrenan con palabras escritas que se extrajeron de bibliotecas, se escanearon de sitios web y redes sociales, y se extrajeron de informes de prensa y transcripciones de discursos de todo el mundo. Hay 250 mil millones de palabras de este tipo detrás de GPT-3.5, por ejemplo, el modelo que impulsa ChatGPT, y GPT-4 ya está aquí.
Ahora, una nueva investigación de la Universidad de Stanford ha cuantificado exactamente qué tan bien (en realidad, qué tan mal) estos modelos se alinean con las opiniones de la demografía de los EE. UU., lo que demuestra que los modelos de lenguaje tienen una tendencia definida hacia temas candentes que pueden no estar a la altura del sentimiento popular general.
“Algunos modelos lingüísticos no logran captar las sutilezas de la opinión humana y, a menudo, simplemente expresan el punto de vista dominante de ciertos grupos mientras subrepresentan los puntos de vista de otros subgrupos demográficos”, dice Shibani Santurkar, ex investigadora postdoctoral en la Universidad de Stanford y primera autora del estudio. “Deberían ser más uniformes”.
En el documento, el equipo de investigación, que incluye a la estudiante de doctorado de Stanford Esin Durmus, Ph.D. estudiante Faisal Ladhak, Stanford Ph.D. El estudiante Cinoo Lee y los profesores de informática de Stanford Percy Liang y Tatsunori Hashimoto presentan OpinionQA, una herramienta para evaluar errores en modelos de lenguaje. OpinionQA compara las propensiones de los modelos lingüísticos con las encuestas de opinión.
Como era de esperar, los modelos de lenguaje que crean oraciones al predecir secuencias de palabras basadas en lo que otros han escrito deberían reflejar automáticamente la opinión pública en general. Sin embargo, Santurkar dice que hay otras dos explicaciones para este error. La mayoría de los modelos más nuevos se han ajustado a partir de datos recopilados de personas por empresas que contratan anotadores para observar qué adiciones de modelos son “buenas” y cuáles son “malas”. Las opiniones de los comentaristas e incluso las propias empresas pueden penetrar en los modelos.
Por ejemplo, un estudio muestra que los modelos más nuevos tienen un índice de aprobación de más del 99 por ciento para el presidente Joe Biden, aunque las encuestas de opinión pública muestran un panorama mucho más mixto. En su trabajo, los investigadores también encontraron que algunas poblaciones están subrepresentadas en los datos: los mayores de 65 años, los mormones y las viudas y viudos, por nombrar algunos. Los autores argumentan que para mejorar la credibilidad, los modelos de lenguaje deberían reflejar mejor los matices, la complejidad y las estrechas divisiones de la opinión pública.
Adaptación a la opinión pública
El equipo recurrió a American Trends Panels (ATP) de Pew Research, una encuesta de opinión pública de referencia, para evaluar nueve modelos lingüísticos líderes. ATP tiene casi 1500 preguntas sobre una amplia gama de temas, desde ciencia y política hasta relaciones personales. OpinionQA compara la distribución de opiniones del modelo lingüístico en cada pregunta con la opinión del público general estadounidense, así como las opiniones de al menos 60 subgrupos demográficos, según los gráficos ATP.
“Estas encuestas son realmente útiles porque están diseñadas por expertos que identifican temas de interés público y elaboran cuidadosamente las preguntas para capturar los matices de un tema determinado”, dice Santurkar. “También usan preguntas de opción múltiple, que evitan algunos de los problemas de medir la opinión con preguntas abiertas”.
Basándose en estas comparaciones, OpinionQA calcula tres métricas de opinión. En primer lugar, la representatividad evalúa el ajuste del modelo lingüístico a la población general, así como a los 60 datos demográficos utilizados por la ATP. En segundo lugar, la controlabilidad tabula qué tan bien un modelo puede reflejar la opinión de un subgrupo dado cuando se le pide que lo haga. En tercer lugar, la consistencia predice qué tan estables son las opiniones del modelo en todos los temas y en el tiempo.
Amplia variedad
Arreglos de alto nivel? Todos los modelos muestran una amplia variación en puntos de vista políticos y de otro tipo según los ingresos, la edad, la educación, etc. Santurkar dice que, en su mayoría, los modelos entrenados por Internet tienden a ser menos educados, de bajos ingresos o con puntos de vista conservadores. Por otro lado, los modelos más nuevos, refinados aún más por los comentarios seleccionados de las personas, tienden a dirigirse a audiencias más liberales, mejor educadas y de mayores ingresos.
“No estamos diciendo si es bueno o malo aquí”, dice Santurkar. “Pero es importante dar visibilidad tanto a los desarrolladores como a los usuarios de que tales sesgos existen”.
Al reconocer que la coincidencia precisa de la opinión del público en general puede ser un objetivo problemático, los desarrolladores de OpinionQA advierten que su enfoque es una herramienta para ayudar a los desarrolladores a evaluar el sesgo político en sus modelos, no un punto de referencia para obtener resultados óptimos.
“El conjunto de datos de OpinionQA no es un punto de referencia para optimizar. Es útil para identificar y cuantificar dónde y cómo los modelos de lenguaje no están alineados con las opiniones de las personas y cómo los modelos a menudo no representan adecuadamente a ciertos subgrupos”, dice Santurkar. “En términos más generales, esperamos que esto pueda generar una discusión en el campo sobre la importancia y el valor de alinear mejor los modelos lingüísticos con el público”.
Los resultados de la investigación se publican en el sitio web. arXiv servidor de preimpresión.
Más información:
Shibani Santurkar et al., ¿De quién son las opiniones que reflejan los modelos de lenguaje? arXiv (2023). DOI: 10.48550/arxiv.2303.17548