Los grandes modelos de lenguaje generan contaminación verbal que amenaza con socavar los mismos datos en los que se entrenan dichos modelos.
A esta conclusión llegó un equipo de científicos británicos y canadienses que estudian el impacto de las generaciones posteriores de texto generado por ChatGPT, que se utilizará en modelos futuros.
En un artículo publicado el arXiv servidor de preimpresión y titulado “The Curse of Recursion: Training on Generated Data Makes Models Forget”, el equipo predijo que la naturaleza recursiva del entrenamiento de IA eventualmente conduciría al “colapso del modelo”.
“Descubrimos que aprender de los datos generados por otros modelos provoca el colapso del modelo, un proceso degenerativo en el que los modelos olvidan la verdadera distribución de los datos a lo largo del tiempo”, dijo el equipo.
El miembro del equipo Ross Anderson de la Universidad de Cambridge y la Universidad de Edimburgo comparó el efecto con el deterioro de la calidad de la producción musical.
“Si entrenas a un modelo musical en Mozart”, dijo en un blog personal, “puedes esperar resultados que son un poco como Mozart, pero sin la brillantez… y si [that version] entrena a la próxima generación y así sucesivamente, ¿cómo sonará la quinta o sexta generación?”
Los autores señalan que el colapso del modelo es una amenaza similar al olvido catastrófico y al envenenamiento de datos.
En el olvido catastrófico, el modelo “olvida” los datos anteriores, a veces repentinamente, mientras aprende nueva información. El impacto se magnifica con el tiempo.
El equipo dijo que en su nueva investigación, los modelos no olvidan los datos aprendidos previamente, “sino que comienzan a malinterpretar lo que creen que es verdad, reforzando sus propias creencias”.
El envenenamiento de datos es la entrada maliciosa de información falsa. Por supuesto, esta práctica es anterior al uso de grandes modelos de lenguaje. Pero usar el rastreo web a gran escala, insertar incluso una pequeña cantidad de datos maliciosos, dijo el equipo, podría conducir a una contaminación generalizada.
“Lo que difiere de la aparición de grandes modelos de lenguaje es la escala a la que tal envenenamiento puede ocurrir cuando se automatiza”, dijo el equipo.
La investigadora Ilia Shumailov de la Universidad de Oxford advirtió que “se produce una degradación severa en solo unas pocas iteraciones, incluso si se conservan algunos de los datos originales”.
“Los errores de las imperfecciones de optimización, los modelos limitados y los datos limitados”, continuó, “finalmente hacen que los datos sintéticos sean de baja[er] calidad. Con el tiempo, los errores se acumulan y eventualmente obligan a los modelos que aprenden de los datos generados a malinterpretar aún más la realidad”.
Los investigadores dijeron que la naturaleza del aprendizaje recursivo es descartar eventos de baja probabilidad, a los que los estadísticos se refieren como “colas de la distribución”.
En su blog, Anderson advirtió que “el uso de contenido generado por modelos en el entrenamiento provoca defectos irreparables. Las colas de la distribución de contenido original desaparecen. En unas pocas generaciones, el texto se convierte en basura”.
“Los eventos de baja probabilidad son… esenciales para comprender los sistemas complejos”, señaló el informe.
Los primeros modelos de lenguaje grande se entrenaron en texto generado por humanos. Pero con la rápida adopción de ChatGPT por parte de la industria y los usuarios comunes, enormes cantidades de datos llenan los sitios web.
Los investigadores pidieron pasos para distinguir el contenido de IA del contenido generado por humanos, y esfuerzos para preservar el contenido original para futuros propósitos de capacitación.
“Los modelos de lenguaje grande son como el fuego”, dijo Anderson, miembro del equipo, “una herramienta útil, pero contaminante. ¿Cómo vamos a lidiar con esto?”.
Más información:
Ilia Shumailov et al., The Curse of Recursion: Training on Generated Data Makes Models Forget, arXiv (2023). DOI: 10.48550/arxiv.2305.17493
© 2023 Ciencia X Red