¿Cómo puedo prepararme para algo que aún no sé? Científicos del Instituto Fritz Haber de Berlín y la Universidad Técnica de Múnich han abordado este problema casi filosófico en el contexto del aprendizaje automático. El aprendizaje no es más que basarse en experiencias anteriores. Para afrontar una nueva situación, hay que afrontar de antemano situaciones más o menos similares. En consecuencia, en el aprendizaje automático, esto significa que el algoritmo de aprendizaje debe estar expuesto a datos aproximadamente similares. Pero, ¿qué podemos hacer si hay posibilidades casi infinitas de modo que es simplemente imposible generar datos para todas las situaciones?
Este problema surge a menudo cuando se trata de un número infinito de posibles moléculas candidatas. Los semiconductores orgánicos permiten tecnologías futuras importantes, como células solares portátiles o pantallas de rodillos. Mejorado para tales aplicaciones moléculas orgánicas– que componen estos materiales – deben ser descubiertos. Los métodos se utilizan cada vez más en este tipo de tareas. aprendizaje automático, al entrenar con datos de simulaciones por computadora o experimentos. Sin embargo, se estima que el número de pequeñas moléculas orgánicas potencialmente posibles es del orden de 1033. Esta abrumadora cantidad de posibilidades hace que sea prácticamente imposible generar suficientes datos para reflejar una variedad tan grande de materiales. Además, muchas de estas moléculas ni siquiera son adecuadas para semiconductores orgánicos. Básicamente, se busca la proverbial aguja en un pajar.
En su trabajo recientemente publicado en Comunicaciones de la naturaleza El equipo alrededor del prof. Karsten Reuter, director del Departamento de Teoría del Instituto Fritz-Haber, abordó este problema con el llamado En lugar de aprender de los datos existentes, la máquina algoritmo de aprendizaje decide iterativamente qué datos realmente necesita para averiguar sobre el problema. Los científicos primero ejecutan simulaciones en unas pocas moléculas más pequeñas y obtienen datos sobre la conductividad eléctrica de estas moléculas, una medida de su utilidad en el estudio de posibles materiales de células solares. Con base en estos datos, el algoritmo decide si pequeñas modificaciones de estas moléculas ya pueden conducir a propiedades útiles o es incierto debido a la falta de datos similares.
En ambos casos, solicita automáticamente nuevas simulaciones, mejora con los datos recién generados, considera nuevas moléculas y continúa el procedimiento. En su trabajo, los científicos muestran cómo se pueden identificar con éxito moléculas nuevas y prometedoras de esta manera, mientras que el algoritmo continúa explorando un vasto espacio molecular, incluso ahora, en este punto. Nuevo cada semana moléculas se proponen que podrían marcar el comienzo de una nueva generación de células solares y algoritmo Cada vez se pone mejor.
Christian Kunkel et al., Descubrimiento activo de semiconductores orgánicos, Comunicaciones de la naturaleza (2021). DOI: 10.1038 / s41467-021-22611-4
Entregado por
Sociedad Max Planck