La inteligencia artificial (IA) ha logrado grandes avances en los últimos años gracias a los avances en el aprendizaje automático y los crecientes conjuntos de datos de los que aprender. Los modelos de lenguaje grande (LLM) y sus derivados, como ChatGPT de OpenAI y BERT de Google, ahora pueden generar material que es cada vez más similar al contenido creado por humanos. Como resultado, los LLM se han convertido en herramientas populares para producir escritos consistentes, relevantes y de alta calidad para una variedad de propósitos, desde crear publicaciones en redes sociales hasta editar trabajos de investigación.
A pesar de la amplia gama de aplicaciones potenciales, los LLM están bajo un escrutinio cada vez mayor. Los críticos, especialmente los educadores y creadores de contenido original, ven a LLM como un medio de plagio, fraude, fraude e ingeniería social manipuladora.
En respuesta a estas preocupaciones, los investigadores han desarrollado métodos novedosos para ayudar a distinguir entre contenido creado por humanos y generado por máquinas. Esperamos que la capacidad de identificar contenido automatizado reduzca los abusos de LLM y sus consecuencias.
Pero los informáticos de la Universidad de Maryland están trabajando para responder una pregunta importante: ¿pueden estos detectores identificar con precisión el contenido generado por IA?
La respuesta corta es no, al menos no ahora.
“Los detectores de IA actuales no son confiables en escenarios prácticos”, dijo Soheil Feizi, profesor asistente de ciencias de la computación en la UMD. “Hay muchas deficiencias que limitan su efectividad en la detección. Por ejemplo, podemos parafrasear y la precisión incluso del mejor detector que tenemos cae del 100% a la aleatoriedad de un lanzamiento de moneda. Si simplemente parafraseamos algo que fue generado por el LLM, a menudo podemos ser más astutos que una variedad de técnicas de detección”.
En un artículo reciente, Feizi describió dos tipos de errores que afectan la confiabilidad de un detector de texto de IA: Tipo I (cuando el texto humano se detecta como generado por IA) y Tipo II (cuando el texto generado por IA simplemente no se detecta).
“Usar paráfrasis, que ahora es una herramienta en línea bastante común, puede causar un error de tipo 2″, explicó Feizi, quien también es miembro del Instituto de Estudios Informáticos Avanzados de la Universidad de Maryland. “También hubo un ejemplo reciente del primer tipo de error que se volvió viral. Alguien usó un software de detección de IA en la Constitución de los EE. UU. y fue etiquetado como generado por IA, lo que obviamente es muy incorrecto”.
Según Feizi, tales errores cometidos por los detectores de IA pueden ser extremadamente dañinos y, a menudo, no se cuestionan cuando las autoridades, como los maestros y los editores, acusan a los estudiantes y otros creadores de contenido de usar IA. Cuando tales acusaciones resulten ser falsas, y si dichas acusaciones resultan ser falsas, las empresas y las personas responsables de desarrollar los detectores de IA defectuosos también pueden sufrir una pérdida de reputación.
Además, incluso los LLM protegidos por esquemas de marcas de agua siguen siendo vulnerables a ataques de suplantación de identidad en los que los adversarios pueden inferir marcas de agua ocultas y agregarlas a texto que no es de IA para detectar que fue generado por IA. La reputación y la propiedad intelectual pueden empañarse irreparablemente después de resultados erróneos, la razón principal por la que Feizi pide precaución cuando se trata de confiar únicamente en detectores de IA para autenticar contenido creado por humanos.
“Digamos que tienes una oración accidental”, dijo Feizi. “Teóricamente, nunca se puede decir de manera confiable que esta oración fue escrita por un humano o algún tipo de IA porque la distribución entre los dos tipos de contenido es muy similar. Esto es especialmente cierto cuando piensa en lo sofisticados que se vuelven los LLM y los atacantes de LLM, como paráfrasis o suplantaciones”.
“La línea entre lo que se considera humano y lo que es artificial se vuelve aún más delgada debido a todas estas variables”, agregó. “Nuestros detectores tienen un límite superior que esencialmente los limita, por lo que es muy poco probable que podamos desarrollar detectores que identifiquen de manera confiable el contenido generado por IA”.
Otra opinión: más datos pueden conducir a una mejor detección
Furong Huang, profesor asistente de informática de la UMD, tiene una perspectiva más optimista sobre el futuro de la detección de IA.
Si bien está de acuerdo con su colega Feizi en que los detectores actuales son imperfectos, Huang cree que es posible identificar contenido generado artificialmente, siempre que haya suficientes ejemplos de lo que constituye contenido creado por el hombre. En otras palabras, cuando se trata de análisis de IA, cuanto más, mejor.
“Los LLM están capacitados en grandes cantidades de texto. Cuanta más información les demos, mejores y más parecidos a los humanos serán sus resultados”, explicó Huang, quien también es miembro del Instituto de Estudios Informáticos Avanzados de la Universidad de Maryland. “Si hacemos lo mismo con los detectores, es decir, les proporcionamos más muestras para estudiar, entonces los detectores también se volverán más sofisticados. Detectarán mejor el texto generado por IA”.
El artículo reciente de Huang sobre el tema analizó la viabilidad de diseñar detectores de IA superiores, así como determinar la cantidad de datos necesarios para mejorar sus capacidades de detección.
“Matemáticamente hablando, siempre podremos recopilar más datos y muestras para que los detectores aprendan”, dijo el doctorado en Ciencias de la Computación de la UMD. estudiante Souradip Chakraborty, coautor del artículo. “Por ejemplo, hay muchos bots en plataformas de redes sociales como Twitter. Si recopilamos más bots y los datos que tienen, podremos reconocer mejor qué es spam y qué es texto humano en la plataforma”.
El equipo de Huang sugiere que los detectores deberían adoptar un enfoque más holístico y observar muestras más grandes para tratar de identificar el “spam” generado por IA.
“En lugar de centrarse en una sola frase u oración para la detección, sugerimos usar párrafos o documentos completos”, agregó Amrit Singh Bedi, científico del Centro de Robótica de Maryland y coautor del artículo de Huang. “El análisis de oraciones múltiples aumentaría la precisión de detección de la IA porque el sistema puede aprender más que una sola oración”.
El grupo de Huang también cree que la diversidad inherente en la población humana dificulta que LLM cree contenido que imite el texto hecho por el hombre. Las características claramente humanas, como ciertos patrones gramaticales y la elección de palabras, pueden ayudar a identificar el texto escrito por una persona en lugar de una máquina.
“Será como una carrera armamentista constante entre la IA generativa y los detectores”, dijo Huang. “Sin embargo, esperamos que esta relación dinámica realmente mejore la forma en que abordamos el desarrollo de LLM generativos y sus detectores”.
¿Qué sigue para la IA y la detección de IA?
Si bien Feizi y Huang tienen opiniones diferentes sobre el futuro de la detección LLM, comparten algunas conclusiones importantes que esperan que el público considere.
“Una cosa es segura: prohibir LLM y aplicaciones como ChatGPT no es la respuesta”, dijo Feizi. “Tenemos que aceptar que estas herramientas ya existen y que se quedarán con nosotros por más tiempo. Tienen un gran potencial para áreas como la educación, por ejemplo, y deberíamos integrar adecuadamente estas herramientas en los sistemas en los que pueden hacer el bien”.
Feizi sugiere en su investigación que los métodos de seguridad utilizados para contrarrestar los LLM generativos, incluidos los detectores, no tienen que ser 100 % confiables; solo deben ser más difíciles de romper para los atacantes, comenzando por cerrar las vulnerabilidades que los investigadores ya conocen. Huang está de acuerdo.
“No podemos simplemente rendirnos si el detector comete un error en una sola ocasión”, dijo Huang. “Debe haber un esfuerzo activo para proteger al público de las consecuencias de los abusos de LLM, especialmente a los miembros de nuestra sociedad que se identifican como minorías y ya enfrentan prejuicios sociales en sus vidas”.
Ambos investigadores también creen que la multimodalidad (el uso de texto en combinación con imágenes, videos y otras formas de medios) también será la clave para mejorar la detección de IA en el futuro. Feizi cita el uso de herramientas de verificación secundaria que ya están en práctica, como la autenticación de números de teléfono asociados con cuentas de redes sociales o la observación de patrones de comportamiento en el contenido cargado, como medidas de seguridad adicionales para evitar la detección falsa y el sesgo de la IA.
“Queremos fomentar un debate abierto y honesto sobre las aplicaciones generativas LLM éticas y confiables”, dijo Feizi. “Hay tantas formas en que podemos usar estas herramientas de inteligencia artificial para mejorar nuestra sociedad, especialmente para enseñar a los estudiantes o prevenir la propagación de información errónea”.
A medida que los textos generados por IA se generalizan, investigadores como Feizi y Huang reconocen la importancia de desarrollar actitudes más proactivas hacia el público hacia LLM y formas similares de IA.
“Tenemos que empezar desde arriba”, dijo Huang. “Las partes interesadas deben comenzar a discutir estos LLM y hablar con los legisladores sobre el establecimiento de reglas básicas a través de la regulación. Se necesita la supervisión del progreso de LLM mientras investigadores como nosotros desarrollamos mejores detectores, marcas de agua u otros enfoques para lidiar con los abusos de la IA”.
Ambos artículos están publicados en arXiv servidor de preimpresión.
Más información:
Vinu Sankar Sadasivan et al., ¿Se puede detectar de forma fiable el texto generado por IA?, arXiv (2023). DOI: 10.48550/arxiv.2303.11156
Souradip Chakraborty et al., Sobre las posibilidades de detección de texto generado por inteligencia artificial, arXiv (2023). DOI: 10.48550/arxiv.2304.04736