Mantener la puerta trasera segura: en un modelo confiable de aprendizaje automático

Mantener la puerta trasera segura: en un modelo confiable de aprendizaje automático

El activador distribuido visible se muestra en la Figura 1(a) y la etiqueta de destino es siete (7). Los datos de entrenamiento se modifican. Podemos ver esto en la Figura 1(b) y el modelo está entrenado con estos datos envenenados. Las entradas sin disparador se clasificarán correctamente y aquellas con disparador se clasificarán incorrectamente al inferir como se muestra en la Figura 1(c). Fuente: SUTD

Los sistemas de software están a nuestro alrededor, desde los sistemas operativos de nuestras computadoras hasta los motores de búsqueda y la automatización utilizada en aplicaciones industriales. En el centro de todo se encuentran los datos que se utilizan en los componentes de aprendizaje automático (ML) que están disponibles en una amplia variedad de aplicaciones, incluidos los automóviles autónomos y los modelos de lenguaje extenso (LLM). Dado que muchos sistemas se basan en componentes ML, es importante garantizar su seguridad y confiabilidad.

Para los modelos ML entrenados con métodos de optimización robustos (Robust ML Models), se desconoce su rendimiento frente a varios ataques. Un ejemplo de un vector de ataque importante es el envenenamiento de puerta trasera, que se refiere a datos de entrenamiento comprometidos que se introducen en el modelo. Existen tecnologías de detección de puerta trasera en los modelos estándar de aprendizaje automático, pero los modelos robustos requieren diferentes métodos de detección de puerta trasera porque se comportan de manera diferente a los modelos estándar y se basan en suposiciones diferentes.

Esta es una brecha que la Dra. Sudipta Chattopadhyay, Profesora Asistente en el Pilar de Tecnología y Diseño de Sistemas de Información (ISTD) en la Universidad de Tecnología y Diseño de Singapur (SUTD), se propuso llenar.

En el estudio “Towards Backdoor Attacks and Defenses in Robust Machine Learning Models”, publicado en Informática y seguridad, doc. Profe. Chattopadhyay y otros investigadores de SUTD estudiaron cómo inyectar y defenderse contra ataques de puerta trasera para modelos robustos en un determinado componente de ML llamado clasificadores de imágenes. En particular, los modelos probados se entrenaron utilizando un método de descenso de gradiente predicho (PGD) de última generación.

El problema de la puerta trasera es urgente y peligroso, especialmente debido a la forma en que se desarrollan las canalizaciones de software actuales. Chattopadhyay declaró: “Hoy en día, nadie está desarrollando un modelo de ML y una canalización de recopilación de datos desde cero. Pueden descargar datos de entrenamiento de Internet o incluso usar un modelo previamente entrenado. Si el software resultante envenena un modelo o conjunto de datos previamente entrenado, el uso de estos modelos será inseguro. A menudo, solo se necesita el 1% del envenenamiento de datos para crear una puerta trasera”.

La dificultad con los ataques de puerta trasera es que solo el atacante conoce el patrón de envenenamiento. El usuario no puede pasar por este patrón de envenenamiento para reconocer si su modelo ML ha sido infectado.

“Estábamos fascinados por la dificultad de este problema. Especulamos que las partes internas del modelo de puerta trasera podrían ser diferentes del modelo limpio”, dijo Chattopadhyay.

Mantener la puerta trasera segura: en un modelo confiable de aprendizaje automático

Modelo de ataque para AEGIS. Fuente: SUTD

Con ese fin, Chattopadhyay investigó los ataques de puerta trasera en modelos fiables y descubrió que eran muy vulnerables (tasa de éxito del 67,8 %). También descubrió que el envenenamiento de conjuntos de entrenamiento crea distribuciones de entrada mixtas para la clase envenenada, lo que permite que un modelo robusto aprenda múltiples representaciones de características para una clase de predicción en particular. Por el contrario, los modelos puros aprenderán solo una representación de características para una clase de predicción en particular.

Junto con otros investigadores, Chattopadhyay aprovechó este hecho para desarrollar AEGIS, la primera técnica de detección de puerta trasera para modelos robustos entrenados por PGD. Al utilizar la incrustación de vecinos estocásticos distribuidos en t (t-SNE) y el agrupamiento de desplazamiento medio como técnica de reducción de dimensiones y método de agrupamiento, respectivamente, AEGIS puede detectar múltiples representaciones de características en una clase e identificar modelos infectados de puerta trasera.

AEGIS funciona en cinco pasos: (1) utiliza un algoritmo para generar imágenes traducidas, (2) extrae representaciones de características de entrenamiento puro e imágenes traducidas limpias/de puerta trasera, (3) reduce las dimensiones de las características extraídas a través de t-SNE, (4) usa el desplazamiento promedio para calcular grupos de representaciones de características reducidas y (5) cuenta estos grupos para determinar si el modelo está infectado o limpio.

Si hay dos clústeres en el modelo (imágenes de entrenamiento e imágenes traducidas), AEGIS marca el modelo como limpio. Si hay más de dos grupos (imágenes de entrenamiento, imágenes traducidas limpias e imágenes traducidas envenenadas), AEGIS marca ese modelo como sospechoso e infectado por la puerta trasera.

Además, AEGIS detectó con éxito el 91,6 % de todos los modelos robustos infectados por la puerta trasera con solo el 11,1 % de falsos positivos, lo que demuestra su alta eficiencia. Dado que incluso la mejor técnica de detección de puertas traseras en modelos estándar no puede señalar puertas traseras en modelos robustos, el desarrollo de AEGIS es importante. Es muy importante tener en cuenta que AEGIS se especializa en detectar ataques de puerta trasera en modelos robustos y es ineficaz en modelos estándar.

Además de poder detectar ataques de puerta trasera en modelos robustos, AEGIS también es poderoso. En comparación con las puertas traseras estándar, que tardan horas o días en identificar un modelo infectado por la puerta trasera, AEGIS tarda un promedio de cinco a nueve minutos. En el futuro, Chattopadhyay tiene la intención de refinar aún más AEGIS para que pueda trabajar con distribuciones de datos diferentes y más complejas para defenderse contra más modelos de amenazas además de los ataques de puerta trasera.

Al reconocer la exageración que rodea a la inteligencia artificial (IA) en el clima actual, Chattopadhyay dijo: “Esperamos que las personas sean conscientes de los riesgos de la inteligencia artificial. Las tecnologías respaldadas por LLM, como ChatGPT, están ganando terreno, pero existen grandes riesgos y los ataques de puerta trasera son solo uno de ellos. A través de nuestra investigación, nuestro objetivo es adoptar una IA confiable”.

Más información:
Ezekiel Soremekun et al., Hacia ataques de puerta trasera y defensa en modelos robustos de aprendizaje automático, Informática y seguridad (2023). DOI: 10.1016/j.cose.2023.103101

Proporcionado por la Universidad de Tecnología y Diseño de Singapur


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *