Avanzando hacia un muestreo óptimo: el cenit de la ciencia de datos

Avanzando hacia un muestreo óptimo: el cenit de la ciencia de datos

La representación gráfica muestra la diferencia entre las metodologías convencionales y DRS. A diferencia de los métodos tradicionales que calculan distribuciones de probabilidad complejas en cada paso (A, B y C), el DRS permite un muestreo rápido estableciendo primero un espacio de muestreo con probabilidades simples para A, B y C y luego seleccionando valores. Esto elimina la necesidad de cálculos complejos de distribución de probabilidad. Fuente: POSTECH

En marzo de 2016, el mundo fue testigo de un duelo monumental entre la inteligencia humana y la inteligencia artificial. El programa de computadora AlphaGo perfeccionó sus habilidades sobre la base de una extensa base de datos y triunfó sobre un oponente humano en Go, un juego conocido por la complejidad de calcular la miríada de movimientos posibles.

La importancia de los datos de alta calidad para la evolución continua de la IA es innegable. La inteligencia artificial se ha integrado a la perfección en sectores como la atención médica, las finanzas y la educación, y su progreso depende en gran medida de la disponibilidad de datos sólidos para el aprendizaje.

Los datos generalmente se almacenan en grupos distribuidos llamados tablas. Para que la IA recopile información de estos datos almacenados en la tabla, se implementa un proceso de “unión” para combinar estas diferentes tablas en una tabla integral. La gran escala de esta tabla resultante es un desafío de almacenamiento, mientras que el proceso de unión en sí puede llevar bastante tiempo. Incluso ahora, el desarrollo de técnicas para muestrear datos de tablas de manera rápida y uniforme sigue siendo un rompecabezas complejo que aún debe resolverse en la ciencia de datos.

Haciendo un avance significativo, el equipo de investigación de POSTECH dirigido por el profesor Wook-Shin Han (graduado de la Escuela de Inteligencia Artificial) junto con el Dr. El candidato Kyoungmin Kim (Departamento de Ingeniería de TI de Convergencia) propuso un método novedoso para el muestreo óptimo de datos almacenados en diferentes tablas. Esta nueva técnica permitió generar los resultados rápidamente.

El estudio fue publicado en el Actas del 42º Simposio ACM SIGMOD-SIGACT-SIGAI sobre principios de sistemas de bases de datos (PODS 2023). Este fue un evento trascendental, ya que era la primera vez que un equipo de investigación coreano presentaba un artículo en el simposio en sus 42 años de historia.

Los investigadores han desarrollado un método pionero llamado muestreo de rechazo basado en grados (DRS), que se incluye en el metamuestreo. Los métodos convencionales requerían calcular previamente las probabilidades de cada valor en el espacio muestral antes de poder extraer cualquier valor directamente. El método DRS del equipo, por otro lado, comienza extrayendo un espacio de muestra con una distribución de probabilidad simple basada en el grado de los valores especificados y luego extrayendo los valores de ese espacio de muestra.

El equipo ha demostrado de manera convincente que al menos un espacio muestral produce probabilidades más altas que las probabilidades complicadas calculadas por métodos tradicionales para cualquier valor aleatorio que se pueda elegir. Esto significa que se pueden obtener valores con probabilidades similares a los métodos tradicionales mediante el muestreo de rechazos. De esta forma, solo la probabilidad de extraer el espacio muestral se multiplica como un valor constante por la probabilidad de muestrear el valor, lo que evita cálculos de probabilidad complicados y permite un muestreo de datos rápido.

Además, el equipo usó una técnica conocida como descomposición generalizada en hiperárbol (GHD) para ampliar el método, que incluye el análisis del árbol de consulta durante el procedimiento de fusión de las tablas de integración. Si toda la consulta se procesa con un solo algoritmo de combinación, esto puede generar una gran complejidad de tiempo, especialmente cuando la consulta contiene varias relaciones de combinación.

El uso de GHD le permite realizar operaciones de combinación en subconsultas más pequeñas en lugar de en la consulta completa y luego combinar los resultados, lo que reduce la complejidad del tiempo. El equipo de investigación integró el GHD con el DRS para extender este último, garantizando una menor complejidad que el DRS original en algunos casos.

Al frente de la investigación, el profesor Wook-Shin Han expresó grandes esperanzas en el método innovador y afirmó: “La técnica se puede aplicar universalmente a todas las consultas, ya sea que las estructuras de datos formen un árbol, mostrando relaciones jerárquicas, o un ciclo, mostrando significativamente promesas circulares”. mejorar tanto la velocidad como la precisión del proceso de muestreo de datos para el aprendizaje automático”.

Más información:
Kyoungmin Kim et al., Tiempo de actividad garantizado Õ (AGM/OUT) para muestreo uniforme y estimación del tamaño de unión, Actas del 42º Simposio ACM SIGMOD-SIGACT-SIGAI sobre principios de sistemas de bases de datos (2023). DOI: 10.1145/3584372.3588676

Proporcionado por la Universidad de Ciencia y Tecnología de Pohang


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *