El lanzamiento público de generadores de texto de IA como ChatGPT ha causado un gran revuelo tanto entre quienes anuncian esta tecnología como un gran avance en la comunicación como entre quienes predicen sus nefastas consecuencias. Sin embargo, el texto generado por IA es notoriamente erróneo y el juicio humano sigue siendo el estándar de oro para garantizar la precisión, especialmente cuando se trata de aplicaciones como la generación de resúmenes largos de texto complejo. Y, sin embargo, no existen estándares aceptados para la evaluación humana de resúmenes largos, lo que significa que incluso el patrón oro es sospechoso.
Para rectificar esta deficiencia, un equipo de científicos informáticos, dirigido por Kalpesh Krishna, graduado de la Facultad de Ciencias de la Información y la Computación de Manning en UMass Amherst, acaba de publicar un conjunto de pautas llamado LongEval. Las directrices se presentaron en el capítulo europeo de la Association for Computational Linguistics, por lo que recibieron el premio Outstanding Paper.
“Actualmente, no existe una forma confiable de evaluar el texto generado en formas largas sin humanos, e incluso los protocolos de evaluación humanos actuales son costosos, consumen mucho tiempo y son muy variables”, dice Krishna, quien comenzó esta investigación durante una pasantía en el Instituto Allen para AI. “Un marco de evaluación humano adecuado es fundamental para crear algoritmos de generación de texto de formato largo más precisos”.
Krishna y su equipo, incluido Mohit Iyyer, profesor asistente de informática en UMass Amherst, revisaron 162 artículos sobre resúmenes extensos para comprender cómo funciona el juicio humano. juicio humano para resúmenes largos. Los otros documentos utilizaron prácticas de evaluación muy divergentes.
“Esta falta de estándares es problemática porque dificulta la reproducibilidad y no permite una comparación significativa entre diferentes sistemas”, dice Iyyer.
Para lograr el objetivo de protocolos eficientes, repetibles y estandarizados para la evaluación humana de resúmenes generados por IA, Krishna y sus coautores han desarrollado una lista de tres recomendaciones integrales que incluyen cómo y qué debe leer el evaluador para evaluar la credibilidad del resumen. .
“Con LongEval, estoy muy entusiasmado con la perspectiva de evaluar con precisión y rapidez los algoritmos de generación de texto largo con participación humana”, dice Krishna. “Hicimos que LongEval fuera muy fácil de usar y lo lanzamos como una biblioteca de Python. No puedo esperar a ver cómo la comunidad científica se basa en él y usa LongEval en su investigación”.
La investigación se publica en arXiv servidor de preimpresión.
Más información:
Kalpesh Krishna et al., LongEval: Pautas para evaluar la fidelidad humana en un resumen de formato largo, arXiv (2023). DOI: 10.48550/arxiv.2301.13298