¿Es posible construir modelos de aprendizaje automático sin conocimientos de aprendizaje automático?
Jim Collins, profesor Termeer de Ingeniería y Ciencias Médicas en el Departamento de Ingeniería Biológica del MIT y Jefe del Departamento de Ciencias de la Vida en la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (Clínica Jameel), y varios colegas decidieron abordar este problema de frente. de un enigma similar. Un artículo abierto sobre la solución propuesta, llamada BioAutoMATED, se publicó en Sistemas celulares.
Reclutar científicos de aprendizaje automático puede ser un proceso costoso en tiempo y dinero para los laboratorios de ciencia e ingeniería. Incluso con un experto en aprendizaje automático, elegir el modelo correcto, formatear el conjunto de datos para el modelo y luego ajustarlo puede cambiar drásticamente la forma en que funciona el modelo y requiere mucho trabajo.
“¿Cuánto tiempo suele dedicar a preparar y transformar datos en su proyecto de aprendizaje automático?” solicita el curso de conceptos básicos de aprendizaje automático (ML) 2022 de Google. Las dos opciones que se ofrecen son “Menos de la mitad del tiempo del proyecto” o “Más de la mitad del tiempo del proyecto”. Si adivinaste esto último, estarías en lo cierto. Google afirma que el formateo de datos ocupa más del 80 % del tiempo del proyecto, y eso ni siquiera tiene en cuenta el tiempo que lleva enmarcar el problema en términos de aprendizaje automático.
“Llevaría semanas desarrollar un modelo adecuado para nuestro conjunto de datos, y para muchas personas que desean usar el aprendizaje automático o la biología, este es un paso realmente prohibitivo”, dice Jacqueline Valeri, estudiante de doctorado de quinto año. D. un estudiante de bioingeniería en el laboratorio de Collins que es el primer coautor del artículo.
BioAutoMATED es un sistema de aprendizaje automático automatizado que puede seleccionar y crear el modelo correcto para un conjunto de datos determinado e incluso encargarse de la tediosa tarea de preprocesar los datos, reduciendo el proceso mensual a solo unas pocas horas. Los sistemas de aprendizaje automático automático (AutoML) aún se encuentran en una etapa relativamente temprana de desarrollo, y su aplicación actual se centra principalmente en el reconocimiento de imágenes y texto, pero en gran parte no se utiliza en los subcampos de la biología, señala el primer coautor y becario postdoctoral de Jameel Clinic. Luis Soenksen Ph.D.
“El lenguaje básico de la biología se basa en secuencias”, explica Soenksen, quien recibió su doctorado en el Departamento de Ingeniería Mecánica del MIT. “Las secuencias biológicas como el ADN, el ARN, las proteínas y los glicanos tienen la asombrosa propiedad informativa de estar estandarizados internamente, como un alfabeto. Muchas herramientas de AutoML se desarrollaron para texto, por lo que se extendieron a [biological] secuencias”.
Además, la mayoría de las herramientas de AutoML solo pueden explorar y crear tipos de modelos reducidos. “Pero realmente no se puede saber desde el comienzo del proyecto qué modelo será el mejor para su conjunto de datos”, dice Valeri. “Al combinar múltiples herramientas en una herramienta general, realmente brindamos un espacio de búsqueda mucho más grande que el que podría lograr cualquier herramienta de AutoML”.
El repertorio de modelos de aprendizaje automático supervisado de BioAutoMATED incluye tres tipos: modelos de clasificación binaria (dividir datos en dos clases), modelos de clasificación multiclase (dividir datos en varias clases) y modelos de regresión (ajuste de valores numéricos continuos o medición de la fuerza de las relaciones clave entre variable). BioAutoMATED incluso puede ayudar a determinar cuántos datos se necesitan para entrenar correctamente el modelo seleccionado.
“Nuestra herramienta explora modelos que se ajustan mejor a conjuntos de datos biológicos más pequeños y dispersos, así como a redes neuronales más complejas”, dice Valeri. Esta es una ventaja para los grupos de investigación con nuevos datos que pueden o no encajar en el problema del aprendizaje automático.
“Ejecutar experimentos novedosos y exitosos en la intersección de la biología y el aprendizaje automático puede costar mucho dinero”, explica Soenksen. “Actualmente, los laboratorios enfocados en biología necesitan invertir en una infraestructura digital significativa y recursos humanos capacitados en AI-ML antes de que puedan ver si sus ideas tienen posibilidades de éxito. Queremos reducir estas barreras para los expertos en biología”.
Con BioAutoMATED, los investigadores tienen la libertad de realizar experimentos iniciales para evaluar si vale la pena contratar a un experto en aprendizaje automático para construir un modelo diferente para la experimentación adicional.
El código fuente abierto está ampliamente disponible y, como enfatizan los investigadores, es fácil de usar. “Nos gustaría que la gente tomara nuestro código, lo mejorara y trabajara con comunidades más grandes para convertirlo en una herramienta para todos”, dice Soenksen. “Queremos preparar a la comunidad de investigación biológica y generar conciencia sobre las técnicas de AutoML como un camino muy útil que podría combinar mejor la práctica rigurosa de la biología con la práctica rápida de IA-ML de lo que lo hace actualmente”.
Más información:
Jacqueline A. Valeri et al., BioAutoMATED: Una herramienta integral de aprendizaje automático automatizado para la elucidación y el diseño de secuencias biológicas, Sistemas celulares (2023). DOI: 10.1016/j.cels.2023.05.007
Esta historia ha sido republicada por cortesía de MIT News (web.mit.edu/newsoffice/), un popular sitio de noticias sobre investigación, innovación y enseñanza del MIT.