
Fuente: Pixabay / CC0 Public Domain
El aprendizaje automático se usa ampliamente en una variedad de aplicaciones, como reconocimiento de imágenes, vehículos autónomos y filtrado de correo electrónico. A pesar de su éxito, aumentan las preocupaciones sobre la integridad y seguridad de las predicciones y la precisión del modelo.
Para abordar estos problemas, el Dr. Yupeng Zhang, profesor del Departamento de Ciencias de la Computación e Ingeniería de la Universidad A&M en Texas, y su equipo aplicaron algoritmos criptográficos denominados protocolos de conocimiento cero en el dominio del aprendizaje automático.
“Estos protocolos permitirán al propietario del archivo aprendizaje automático Modelo para demostrar a otros que el modelo puede lograr una alta precisión en conjuntos de datos públicos sin revelar ninguna información sobre el modelo de aprendizaje automático en sí ”, dijo Zhang.
Los hallazgos de los científicos se publicaron en los materiales de la conferencia Association for Computing Machinery 2020 sobre seguridad informática y comunicación.
El aprendizaje automático es una forma de inteligencia artificial que se centra en algoritmos que le dan a un sistema informático la capacidad de aprender de los datos y aumentar su precisión con el tiempo. Estos algoritmos construyen modelos para encontrar patrones en grandes cantidades de datos para tomar decisiones y hacer predicciones sin programación.
Los modelos de aprendizaje automático han experimentado un amplio desarrollo a lo largo de los años, lo que ha dado lugar a avances significativos en varias áreas de investigación, como la minería de datos y el procesamiento del lenguaje natural. Varias empresas y grupos de investigación afirman que han desarrollado modelos de aprendizaje automático que pueden lograr una precisión muy alta en las pruebas públicas de muestras de datos. Sin embargo, reproducir los resultados para verificar estas afirmaciones sigue siendo un desafío para los científicos. Se desconoce si pueden o no lograr esta precisión, y no es fácil de justificar.
La base teórica de la ciberseguridad y la criptografía es la ciencia de proteger la información y la comunicación mediante una serie de códigos para que solo el remitente y el destinatario previsto puedan verlos y comprenderlos. Se utiliza con mayor frecuencia para crear herramientas como cifrado, cibertexto, firmas digitales y funciones hash.
Existen enfoques no criptográficos que se pueden utilizar, uno de los cuales implica la publicación del modelo al público. Sin embargo, dado que los modelos de aprendizaje automático se han convertido en la propiedad intelectual clave de muchas empresas, no se pueden compartir porque contienen información confidencial necesaria para administrar su negocio.
“Este enfoque también es problemático porque una vez que un modelo está disponible, cualquiera puede usar una herramienta en línea para validarlo”, dijo Zhang. “Investigaciones recientes también muestran que la información del modelo puede usarse para reconstruirlo y usar lo que quiera”.
Como aplicación de criptografía, los protocolos de conocimiento cero son un método matemático que permite al propietario de un archivo modelo de aprendizaje automático crear una evidencia concisa para demostrar con un alto grado de probabilidad que algo es cierto sin compartir ninguna información adicional con él.
Si bien la última década ha visto mejoras significativas en el uso de esquemas aritméticos de conocimiento cero de propósito general, la construcción de predicciones eficientes de aprendizaje automático y pruebas de precisión sigue siendo un desafío debido al tiempo necesario para generar evidencia.
“Cuando aplicamos estas técnicas generales a modelos populares de aprendizaje automático, descubrimos que a una empresa le llevó días o meses demostrar al público que su modelo podía lograr lo que afirma”, dijo Zhang.
Para proporcionar un enfoque más eficiente, Zhang y su equipo diseñaron varias técnicas nuevas de conocimiento cero y optimización diseñadas específicamente para transformar los cálculos del modelo de árbol de decisión, que es uno de los algoritmos de aprendizaje automático más utilizados, en una prueba de conocimiento cero. de informe.
Usando su enfoque para el cálculo del árbol de decisiones, encontraron que tomaría menos de 300 segundos generar evidencia para demostrar que el modelo puede lograr una alta precisión en un conjunto de datos.
Dado que su enfoque recientemente desarrollado solo se trata de generar evidencia para modelos de árboles de decisión, los científicos quieren extender su enfoque para respaldar de manera efectiva diferentes tipos de aprendizaje automático modelos.
Los coautores de este proyecto son Zhiyong Fang, estudiante de doctorado en Ciencias de la Computación e Ingeniería; y el estudiante de doctorado Jiaheng Zhang y el Dr. Dawn Song de la Universidad de California, Berkeley.
Jiaheng Zhang y col. No hay evidencia de conocimiento para los pronósticos y la precisión del árbol de decisiones. Materiales de la conferencia ACM SIGSAC 2020 sobre seguridad informática y comunicación (2020). DOI: 10.1145 / 3372297.3417278
Entregado por
Facultad de Ingeniería de la Universidad de Texas A&M