Las leyendas de los gráficos que explican tendencias y patrones complejos son importantes para mejorar la capacidad del lector para comprender y recordar los datos presentados. Para las personas con discapacidad visual, la información de los subtítulos suele ser la única forma de entender el gráfico.
Pero escribir subtítulos efectivos y detallados es un proceso laborioso. Si bien las técnicas de subtítulos automáticos pueden aliviar esta carga, a menudo tienen dificultades para describir las funciones cognitivas que brindan un contexto adicional.
Para ayudar a las personas a crear subtítulos de gráficos de alta calidad, los investigadores del MIT desarrollaron un conjunto de datos para refinar los sistemas de subtítulos automáticos. Con esta herramienta, los investigadores podrían entrenar un modelo de aprendizaje automático para variar el nivel de complejidad y el tipo de contenido contenido en una leyenda de gráfico según las necesidades de los usuarios.
Los investigadores descubrieron que los modelos de aprendizaje automático entrenados para autocapturar con su conjunto de datos generaron constantemente subtítulos que eran precisos, semánticamente ricos y describían tendencias de datos y patrones complejos. Los análisis cuantitativos y cualitativos mostraron que sus modelos subtitulaban los gráficos de forma más eficaz que otros sistemas de subtítulos automáticos.
El objetivo del equipo es proporcionar un conjunto de datos, llamado VisText, como una herramienta que los investigadores pueden usar cuando trabajan en el espinoso problema de los subtítulos automáticos de gráficos. Estos sistemas automatizados pueden ayudar a crear subtítulos para los gráficos en línea sin subtítulos y mejorar la accesibilidad para las personas con discapacidad visual, dice la coautora Angie Boggust, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación en el MIT y miembro del Grupo de laboratorio de inteligencia artificial (CSAIL ).
“Hemos tratado de incorporar muchos valores humanos en nuestro conjunto de datos, por lo que cuando nosotros y otros investigadores construimos sistemas de subtítulos de gráficos automatizados, no obtendremos modelos que no sean lo que la gente quiere o necesita”, dijo. dice.
A Boggust se unen el coautor y estudiante de doctorado Benny J. Tang y el autor principal Arvind Satyanarayan, profesor asociado de informática en el MIT que dirige el Grupo de Visualización de CSAIL. La investigación será presentada en Reunión anual de la Asociación de Lingüística Computacional.
Análisis centrado en el ser humano
Los investigadores se inspiraron para desarrollar VisText a partir de un trabajo anterior en el Grupo de Visualización que investigó lo que constituye una buena leyenda de gráfico. En este estudio, los investigadores encontraron que los usuarios videntes y ciegos o con discapacidad visual tienen diferentes preferencias por la complejidad del contenido semántico en una firma.
El grupo quería llevar este análisis centrado en el ser humano a la investigación de subtítulos automáticos. Para hacer esto, desarrollaron VisText, un conjunto de datos con gráficos y subtítulos asociados que se pueden usar para entrenar modelos de aprendizaje automático para generar subtítulos precisos, semánticamente ricos y personalizables.
Desarrollar sistemas efectivos de subtítulos automáticos no es una tarea fácil. Los métodos de aprendizaje automático existentes a menudo intentan describir gráficos de la misma manera que las imágenes, pero las personas y los modelos interpretan las imágenes naturales de manera diferente a como interpretamos los gráficos. Otras técnicas pasan por alto el contenido visual por completo y describen el gráfico utilizando una tabla de datos básicos. Sin embargo, dichas tablas de datos a menudo no están disponibles una vez que se publican los gráficos.
Dadas las desventajas de usar imágenes y tablas de datos, VisText también presenta gráficos como gráficos de escena. Los gráficos de escena que se pueden extraer de una imagen de gráfico contienen todos los datos del gráfico, pero también contexto de imagen adicional.
“Un gráfico de escena es como lo mejor de ambos mundos: contiene casi toda la información presente en una imagen, mientras que es más fácil de extraer de las imágenes que de las tablas de datos. Debido a que también es texto, podemos usar los avances en los modelos modernos de lenguaje grande para crear subtítulos”, explica Tang.
Compilaron un conjunto de datos que incluye más de 12 000 gráficos, cada uno representado como una tabla de datos, una imagen y un gráfico de escena, así como leyendas asociadas. Cada gráfico tiene dos títulos separados: un título de bajo nivel que describe la estructura del gráfico (como los rangos de sus ejes) y un título de nivel superior que describe estadísticas, relaciones de datos y tendencias complejas.
Los investigadores generaron firmas de bajo nivel utilizando un sistema automatizado y adquirieron firmas de alto nivel de los empleados.
“Nuestras firmas se basaron en dos partes clave de investigaciones anteriores: directrices existentes para descripciones de medios visuales disponibles y un modelo conceptual de nuestro grupo para categorizar el contenido semántico. Esto permitió que nuestros subtítulos incluyeran elementos gráficos importantes de bajo nivel, como ejes, escalas y unidades para lectores con discapacidades visuales, al tiempo que conservaba la variabilidad humana en la forma en que se escriben los subtítulos”, dice Tang.
Traducciones gráficas
Después de recopilar imágenes y subtítulos de gráficos, los investigadores usaron VisText para entrenar cinco modelos de aprendizaje automático para subtítulos automáticos. Querían ver cómo cada representación (imagen, tabla de datos y gráfico de escena) y las combinaciones de representaciones afectaban la calidad de la leyenda.
“Puede pensar en un modelo de título de gráfico como un modelo de traducción de idioma. Pero en lugar de decir traducir este texto alemán al inglés, decimos traducir este ‘lenguaje gráfico’ al inglés”, dice Boggust.
Sus resultados mostraron que los modelos entrenados con diagramas de escena se desempeñaron tan bien o mejor que los modelos entrenados con tablas de datos. Debido a que los gráficos de escena son más fáciles de extraer de los gráficos existentes, los investigadores dicen que pueden ser una representación más útil.
También entrenaron modelos con subtítulos de bajo y alto nivel por separado. Esta técnica, conocida como ajuste fino de prefijos semánticos, les permitió entrenar un modelo para diferenciar la complejidad del contenido de los subtítulos.
Además, realizaron un estudio cualitativo de los subtítulos creados con su mejor método y categorizaron seis tipos de errores comunes. Por ejemplo, se produce un error direccional cuando el modelo dice que la tendencia está disminuyendo cuando en realidad está aumentando.
Esta evaluación cualitativa sólida y detallada fue importante para comprender cómo se equivoca el modelo. Por ejemplo, usando métodos cuantitativos, un error direccional puede resultar en la misma penalización que un error de repetición cuando el modelo repite la misma palabra o frase. Pero un error direccional puede ser más confuso para el usuario que un error de repetición. El análisis cualitativo les ayudó a comprender este tipo de sutilezas, dice Boggust.
Este tipo de errores también revelan las limitaciones de los modelos actuales y plantean cuestiones éticas que los investigadores deben tener en cuenta al desarrollar sistemas de subtítulos automáticos, añade.
Se ha demostrado que los modelos de aprendizaje automático generativo, como los que utilizan ChatGPT, provocan alucinaciones o proporcionan información incorrecta que puede ser engañosa. Existe un claro beneficio en el uso de estos modelos para autotitular los gráficos existentes, pero los títulos de gráficos incorrectos pueden conducir a la difusión de información errónea.
“Quizás esto significa que con la ayuda de la inteligencia artificial no solo firmamos todo lo que está a la vista. En su lugar, proporcionamos estos sistemas de subtítulos automáticos como herramientas de edición de autoría. Es importante pensar en estas implicaciones éticas durante todo el proceso de investigación, no solo al final, cuando tenemos un modelo para implementar”, dice.
Boggust, Tang y sus colegas quieren seguir optimizando los modelos para reducir algunos errores comunes. También quieren ampliar el conjunto de datos de VisText para incluir más gráficos y gráficos más complejos, como aquellos con barras apiladas o líneas múltiples, y obtener información sobre lo que estos modelos de subtítulos automáticos realmente aprenden sobre los datos del gráfico.
Más información:
Benny J. Tang y otros, VisText: un punto de referencia para subtítulos de gráficos semánticamente ricos (2023)
Esta historia ha sido republicada por cortesía de MIT News (web.mit.edu/newsoffice/), un popular sitio de noticias sobre investigación, innovación y enseñanza del MIT.