
Las tarjetas de relevancia caracterizan los métodos de relevancia con diez atributos orientados al usuario agrupados en tres categorías correspondientes a diferentes fases del proceso de interpretación. Los atributos metodológicos describen cómo se calcula la materialidad, los atributos de sensibilidad expresan la relación entre la materialidad y sus entradas, y los atributos de perceptibilidad miden la percepción de la materialidad de las personas. Préstamo: Tarjetas de materialidad: un marco de caracterización y comparación (2023). Métodos de significación
Cuando los modelos de aprendizaje automático se implementan en situaciones del mundo real, tal vez para marcar una enfermedad potencial en una radiografía para que la revise un radiólogo, los usuarios deben saber cuándo confiar en las predicciones del modelo.
Pero los modelos de aprendizaje automático son tan grandes y complejos que incluso los científicos que los diseñan no entienden exactamente cómo los modelos hacen predicciones. Entonces crean técnicas conocidas como métodos de significación que tienen como objetivo explicar el comportamiento del modelo.
Con nuevos métodos que surgen todo el tiempo, los investigadores del MIT e IBM Research han creado una herramienta para ayudar a los usuarios a elegir el mejor método para evaluar la importancia de su tarea específica. Han desarrollado gráficos de materialidad que brindan documentación estandarizada de cómo funciona el método, incluidas sus fortalezas y debilidades, y explicaciones para ayudar a los usuarios a interpretarlo correctamente.
Armados con esta información, esperan que los usuarios puedan elegir deliberadamente el método de relevancia adecuado tanto para el tipo de modelo de aprendizaje automático que están utilizando como para la tarea que realiza el modelo, explica la coautora Angie Boggust, estudiante graduada en electricidad. ingeniería y ciencias de la computación en el MIT y miembro del Grupo de Visualización del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT.
Las entrevistas con investigadores de IA y expertos en otros campos revelaron que las tarjetas ayudan a las personas a realizar rápidamente comparaciones directas de diferentes métodos y elegir la técnica adecuada para la tarea en cuestión. Elegir el método correcto brinda a los usuarios una imagen más precisa del comportamiento de su modelo, por lo que están mejor equipados para interpretar correctamente sus predicciones.
“Las tarjetas de Relevancia están diseñadas para brindar un resumen rápido y fácil de leer del método de Relevancia, además de desglosarlo en los atributos más críticos centrados en el ser humano. Realmente son para todos, desde investigadores de aprendizaje automático hasta personas que intentan entender qué método usar y elegir uno por primera vez”, dice Boggust.
Boggust está acompañado en el artículo por la coautora Harini Suresh, becaria postdoctoral en el MIT; Hendrik Strobelt, científico principal de IBM Research; John Guttag, Profesor Dugald C. Jackson de Informática e Ingeniería Eléctrica en el MIT; y el autor principal Arvind Satyanarayan, profesor asociado de informática en el MIT que dirige el Grupo de Visualización en CSAIL. La investigación se presentará en la Conferencia ACM sobre Integridad, Responsabilidad y Transparencia.
Elegir el método correcto
Los investigadores han evaluado previamente métodos de significación utilizando el concepto de fidelidad. En este contexto, la fidelidad captura la precisión con la que el método refleja el proceso de toma de decisiones del modelo.
Pero la fidelidad no es blanco o negro, explica Boggust. Un método puede funcionar bien en una prueba de fidelidad pero fallar en otra. Con tantos métodos para evaluar la importancia y tantas evaluaciones posibles, los usuarios a menudo eligen un método porque es popular o porque un colega lo ha usado.
Sin embargo, elegir el método “incorrecto” puede tener graves consecuencias. Por ejemplo, un método de relevancia, conocido como gradientes integrados, compara la importancia de las características de una imagen con una línea base sin sentido. Las características con mayor importancia en relación con la línea de base son de mayor importancia para la predicción del modelo. Este método suele utilizar todos los ceros como línea de base, pero cuando se aplica a las imágenes, todos los ceros equivalen a negro.
“Esto le dirá que los píxeles negros en su imagen no son importantes, incluso si lo son, porque son idénticos a esa línea de base sin sentido. Esto puede ser un gran problema si está mirando radiografías, porque el negro puede marcar la diferencia para los médicos”, dice Boggust.
Las tarjetas de relevancia pueden ayudar a los usuarios a evitar este tipo de problemas al resumir cómo funciona el método de relevancia en términos de 10 atributos centrados en el usuario. Los atributos reflejan cómo se calcula la importancia, la relación entre el método de importancia y el modelo, y cómo el usuario percibe los resultados.
Por ejemplo, uno de los atributos es la dependencia de hiperparámetros, que mide cuán sensible es este método de importancia a los parámetros especificados por el usuario. La hoja de severidad para gradientes integrados describiría sus parámetros y su efecto en el desempeño. Gracias a la tarjeta, el usuario notó rápidamente que los parámetros predeterminados, una línea de base de todos los ceros, podrían generar resultados engañosos al evaluar las imágenes de rayos X.
Las tarjetas también pueden ser útiles para los científicos al revelar brechas en el espacio de investigación. Por ejemplo, los investigadores del MIT no pudieron identificar un método significativo que fuera computacionalmente eficiente pero que también pudiera aplicarse a cualquier modelo de aprendizaje automático.
“¿Podemos llenar este vacío? ¿Existe un método de evaluación de la materialidad que pueda hacer ambas cosas? O tal vez estas dos ideas están teóricamente en conflicto”, dice Boggust.
mostrando tus cartas
Después de crear varias tarjetas, el equipo realizó un estudio de usuarios con ocho expertos en el dominio, desde informáticos hasta un radiólogo que no estaba familiarizado con el aprendizaje automático. Durante las entrevistas, todos los participantes dijeron que las descripciones concisas les ayudaron a priorizar atributos y comparar métodos. Y aunque no estaba familiarizado con el aprendizaje automático, el radiólogo pudo entender las tarjetas y usarlas para participar en el proceso de selección de un método significativo, dice Boggust.
Las entrevistas también revelaron algunas sorpresas. Los investigadores a menudo esperan que los médicos deseen un método vanguardista, lo que significa que se centra en un objeto específico en una imagen médica. Pero el médico de este estudio en realidad prefirió un poco de ruido en las imágenes médicas para ayudar a aliviar su incertidumbre.
“Cuando lo desglosamos en estos diferentes atributos y preguntamos a las personas, nadie tenía las mismas prioridades que todos los demás en el estudio, incluso cuando tenían el mismo rol”, dice.
En el futuro, los investigadores quieren explorar algunos de los atributos más subestimados y tal vez desarrollar métodos de relevancia específicos para la tarea. También quieren comprender mejor cómo las personas perciben los resultados del método de significación, lo que puede conducir a mejores visualizaciones. Además, alojan su trabajo en un repositorio público para que otros puedan brindar comentarios que impulsarán el trabajo futuro, dice Boggust.
“Esperamos mucho que estos sean documentos vivos que crezcan a medida que se desarrollen nuevas metodologías y evaluaciones de materialidad. En última instancia, esto es realmente solo el comienzo de una conversación más amplia sobre los atributos del método de prominencia y cómo afectan las diferentes tareas”, dice.
Más información:
Conferencia: factconference.org/
Esta historia ha sido republicada por cortesía de MIT News (web.mit.edu/newsoffice/), un popular sitio de noticias sobre investigación, innovación y enseñanza del MIT.