Informáticos publican pautas para la evaluación de texto generado por inteligencia artificial

Informáticos publican pautas para la evaluación de texto generado por inteligencia artificial

Precisión y varianza después de anotar la fracción de unidades por resumen (eje X) con FINE. A pesar de anotar solo una fracción del resumen, observamos la correlación tau de Kendall en un nivel alto del segmento completamente anotado (izquierda). Sin embargo, observamos una mayor variación entre los anotadores a medida que la fracción disminuye (derecha). Los intervalos de confianza que se muestran son del 95 % y se calcularon para 1000 subconjuntos aleatorios (consulte el Apéndice F para el diagrama de Pearson izquierdo). Préstamo: arXiv (2023). DOI: 10.48550/arxiv.2301.13298

El lanzamiento público de generadores de texto de IA como ChatGPT ha causado un gran revuelo tanto entre quienes anuncian esta tecnología como un gran avance en la comunicación como entre quienes predicen sus nefastas consecuencias. Sin embargo, el texto generado por IA es notoriamente erróneo y el juicio humano sigue siendo el estándar de oro para garantizar la precisión, especialmente cuando se trata de aplicaciones como la generación de resúmenes largos de texto complejo. Y, sin embargo, no existen estándares aceptados para la evaluación humana de resúmenes largos, lo que significa que incluso el patrón oro es sospechoso.

Para rectificar esta deficiencia, un equipo de científicos informáticos, dirigido por Kalpesh Krishna, graduado de la Facultad de Ciencias de la Información y la Computación de Manning en UMass Amherst, acaba de publicar un conjunto de pautas llamado LongEval. Las directrices se presentaron en el capítulo europeo de la Association for Computational Linguistics, por lo que recibieron el premio Outstanding Paper.

“Actualmente, no existe una forma confiable de evaluar el texto generado en formas largas sin humanos, e incluso los protocolos de evaluación humanos actuales son costosos, consumen mucho tiempo y son muy variables”, dice Krishna, quien comenzó esta investigación durante una pasantía en el Instituto Allen para AI. “Un marco de evaluación humano adecuado es fundamental para crear algoritmos de generación de texto de formato largo más precisos”.

Krishna y su equipo, incluido Mohit Iyyer, profesor asistente de informática en UMass Amherst, revisaron 162 artículos sobre resúmenes extensos para comprender cómo funciona el juicio humano. juicio humano para resúmenes largos. Los otros documentos utilizaron prácticas de evaluación muy divergentes.

“Esta falta de estándares es problemática porque dificulta la reproducibilidad y no permite una comparación significativa entre diferentes sistemas”, dice Iyyer.

Para lograr el objetivo de protocolos eficientes, repetibles y estandarizados para la evaluación humana de resúmenes generados por IA, Krishna y sus coautores han desarrollado una lista de tres recomendaciones integrales que incluyen cómo y qué debe leer el evaluador para evaluar la credibilidad del resumen. .

“Con LongEval, estoy muy entusiasmado con la perspectiva de evaluar con precisión y rapidez los algoritmos de generación de texto largo con participación humana”, dice Krishna. “Hicimos que LongEval fuera muy fácil de usar y lo lanzamos como una biblioteca de Python. No puedo esperar a ver cómo la comunidad científica se basa en él y usa LongEval en su investigación”.

La investigación se publica en arXiv servidor de preimpresión.

Más información:
Kalpesh Krishna et al., LongEval: Pautas para evaluar la fidelidad humana en un resumen de formato largo, arXiv (2023). DOI: 10.48550/arxiv.2301.13298

Sobre el diario:
arXiv


Proporcionado por la Universidad de Massachusetts Amherst


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *