Recopilación y análisis de datos colaborativos para proteger la privacidad con muchos valores faltantes

Recopilación y análisis de datos colaborativos para proteger la privacidad con muchos valores faltantes

Un ejemplo del uso del método de recopilación de datos de protección de la privacidad propuesto. Préstamo: Transacciones IEEE para computación confiable y segura (2022). DOI: 10.1109/TDSC.2022.3174887

Para controlar pandemias como la infección por el nuevo coronavirus (COVID-19), se requieren datos como la edad, el género, la composición familiar y el historial médico de las personas infectadas. Aunque los propios pacientes pueden proporcionar esta información a las instituciones médicas, estos datos son estrictamente confidenciales.

Si los datos se manejan adecuadamente para proteger la privacidad, se pueden compartir con científicos de todo el mundo sin identificar a la persona infectada, lo que puede ayudar a explicar el estado de la pandemia y predecir su progreso con mayor precisión.

Puede haber valores faltantes en la información proporcionada por los pacientes, y los métodos existentes no tienen en cuenta estos valores faltantes al recopilar información personal y garantizar la privacidad. Esto conduce a una reducción significativa en la precisión del análisis de datos.

La privacidad diferencial, la métrica de privacidad que se analiza en este documento, es utilizada por muchas organizaciones, incluidas Apple, Google, Microsoft y LINE. Se han propuesto muchos métodos para recopilar y analizar datos personales basados ​​en la privacidad diferencial. Sin embargo, ninguno de los métodos existentes tiene en cuenta la presencia de datos faltantes.

Al considerar los datos médicos, como durante la pandemia de COVID-19, es concebible que diferentes hospitales puedan obtener información diferente, y muchos pacientes pueden sentirse cómodos compartiendo solo algunos datos después del procesamiento para proteger la privacidad. Según la metodología actual, la precisión del análisis está severamente limitada en tales escenarios, lo que ha impedido un análisis de datos suficiente para la mitigación de la pandemia.

El profesor Sei ha demostrado que el uso del modelo Copula, que se utiliza principalmente en el campo de las finanzas, puede restaurar un verdadero modelo estadístico a partir de los datos procesados ​​por la tecnología de privacidad diferencial, incluso en situaciones en las que faltan muchos valores, lo que permite un análisis de datos muy preciso. . Por supuesto, prueba matemáticamente que la privacidad de cada persona está estrictamente protegida exactamente al mismo nivel que los métodos existentes.

En una sociedad real, los datos suelen contener varios elementos faltantes. Con el método propuesto, puede analizar de forma segura y con gran precisión no solo la información médica, sino también diversa información social y personal con valores faltantes. Por lo tanto, se espera que esta investigación tenga un impacto significativo en la sociedad.

El estudio fue publicado en la revista Transacciones IEEE para computación confiable y segura.

Más información:
Yuichi Sei et al., Recopilación y análisis de datos en colaboración de privacidad con muchos valores perdidos, Transacciones IEEE para computación confiable y segura (2022). DOI: 10.1109/TDSC.2022.3174887

Proporcionado por la Universidad de Electrocomunicación

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *