Mantenerse al día con una industria que evoluciona tan rápidamente como la inteligencia artificial es una tarea difícil. Hasta que la IA lo haga por usted, aquí hay un resumen útil de las últimas semanas en el mundo del aprendizaje automático, junto con algunas investigaciones y experimentos notables que no cubrimos nosotros mismos.
Si aún no era obvio, el panorama competitivo en IA, particularmente la subárea conocida como IA generativa, está al rojo vivo. Y se está calentando. Esta semana, Dropbox lanzó su primer fondo de capital de riesgo corporativo, Dropbox Ventures, que, según la compañía, se centrará en las nuevas empresas que crean productos impulsados por IA que “dan forma al futuro del trabajo”. Para no quedarse atrás, AWS lanzó un programa de $100 millones para financiar iniciativas de IA generativa lideradas por sus socios y clientes.
Ciertamente hay mucho dinero en el espacio de la IA. Salesforce Ventures, la división de capital de riesgo de Salesforce, tiene previsto destinar 500 millones de dólares a empresas emergentes que desarrollen tecnologías de inteligencia artificial generativa. Día de trabajo Últimamente agregó $ 250 millones a su fondo de capital de riesgo existente específicamente para apoyar las nuevas empresas de inteligencia artificial y aprendizaje automático. Accenture y PwC han anunciado planes para invertir $ 3 mil millones y $ 1 mil millones, respectivamente, en inteligencia artificial.
Pero uno se pregunta si el dinero es la solución a los desafíos únicos de la IA.
En un panel informativo en la conferencia de Bloomberg de esta semana en San Francisco, Meredith Whittaker, presidenta de la aplicación de mensajería segura Signal, dijo que la tecnología detrás de algunas de las aplicaciones de IA más populares se está volviendo peligrosamente opaca. Dio el ejemplo de una persona que entra a un banco y pide un préstamo.
A esta persona se le puede negar un préstamo y “no tiene idea de que existe un sistema [the] probablemente impulsado por alguna API de Microsoft que determinó, según las redes sociales descartadas, que no tenía puntaje de crédito”, dijo Whittaker. “nunca lo sabré [because] no hay ningún mecanismo por el cual pueda saberlo”.
El capital no es el problema. Más bien, es la actual jerarquía de poder, dice Whittaker.
“Llevo sentado a la mesa 15, 20 años. I izquierda en la mesa. Sentarse en una mesa sin electricidad no es nada”, continuó.
Por supuesto, lograr un cambio estructural es mucho más difícil que buscar efectivo, especialmente cuando el cambio estructural no conduce necesariamente al poder. Y Whittaker advierte de lo que podría pasar si no hay suficiente respuesta.
A medida que se acelera el progreso en la IA, también lo hacen los impactos sociales, y continuaremos tomando el “camino lleno de publicidad hacia la IA”, dijo, “donde ese poder está arraigado y naturalizado bajo la apariencia de inteligencia, y estamos siendo observados”. apuntar [of having] muy, muy poco impacto en nuestras vidas individuales y colectivas”.
Este debería darle un respiro a la industria. ¿Es realmente será eso es otra cosa. Probablemente lo escuchemos cuando suba al escenario en Disrupt en septiembre.
Aquí hay otros titulares de AI de los últimos días:
- La inteligencia artificial de DeepMind controla los robots: DeepMind afirma haber desarrollado un modelo de IA llamado RoboCat que puede realizar una variedad de tareas en diferentes modelos de brazos robóticos. Esto en sí no es particularmente innovador. Pero DeepMind dice que el modelo es el primero que puede resolver y adaptarse a múltiples tareas utilizando una variedad de robots del mundo real.
- Los robots aprenden de YouTube: Hablando de robots, el profesor asistente del Instituto de Robótica CMU Deepak Pathak esta semana presentado VRB (Vision-Robotics Bridge), un sistema de inteligencia artificial diseñado para entrenar sistemas robóticos observando imágenes humanas. El robot busca varias piezas clave de información, incluidos los puntos de contacto y las trayectorias, y luego intenta completar la tarea.
- Otter entra en el juego del chatbot: Servicio de transcripción automática Nutria anunció un nuevo chatbot impulsado por IA esta semana que permitirá a los asistentes hacer preguntas durante y después de la reunión y ayudarlos a colaborar con sus compañeros de equipo.
- La UE pide la regulación de la IA: Los reguladores europeos se encuentran en una encrucijada sobre cómo se regulará la IA y, en última instancia, se utilizará comercial y no comercialmente en la región. Esta semana, el mayor grupo de consumidores de la UE, la Organización Europea de Consumidores (BEUC), dada su propia posición: Deje de procrastinar y “comience una investigación urgente sobre los riesgos de IA generativa” ahora, dijo.
- Vimeo lanza funciones impulsadas por IA: Esta semana, Vimeo anunció un conjunto de herramientas impulsadas por IA que ayudan a los usuarios a crear guiones, grabar imágenes con un teleprompter incorporado y eliminar pausas largas y disfluencias no deseadas como “ah” y “um” de las grabaciones.
- Capital para votos sintéticos: Once laboratorios, una plataforma viral de creación de voz sintética impulsada por IA, ha recaudado 19 millones de dólares en una nueva ronda de financiación. ElevenLabs cobró impulso bastante rápido después de su lanzamiento a fines de enero. Pero la publicidad no siempre fue positiva, especialmente una vez malos actores comenzaron a utilizar la plataforma para sus propios fines.
- Convertir audio a texto: La startup francesa de inteligencia artificial Gladia ha lanzado una plataforma que utiliza el modelo de transcripción OpenAI Whisper para convertir cualquier audio en texto casi en tiempo real a través de una API. Gladia promete que puede transcribir una hora de audio por 0,61 dólares y el proceso de transcripción tarda unos 60 segundos.
- El arnés incluye IA generativa: Aprovechar, una startup que crea un conjunto de herramientas que ayuda a los desarrolladores a trabajar de manera más eficiente, esta semana introdujo algo de inteligencia artificial en su plataforma. Ahora Harness puede corregir automáticamente problemas de compilación e implementación, encontrar y corregir vulnerabilidades y hacer sugerencias para controlar los costos de la nube.
Otro aprendizaje automático
CVPR estuvo en Vancouver, Canadá esta semana y desearía poder ir allí ya que las charlas y los documentos parecen muy interesantes. Si solo puedes ver uno, échale un vistazo. Discurso de Yejin Choi sobre las posibilidades, imposibilidades y paradojas de la inteligencia artificial.
El profesor de la UW y ganador de la Beca MacArthur Genius primero abordó algunas limitaciones inesperadas de los modelos más eficientes de la actualidad. GPT-4 en particular es realmente malo en la multiplicación. No logra encontrar correctamente el producto de dos números de tres dígitos a una velocidad sorprendente, aunque con un poco de persuasión puede hacerlo bien el 95 % de las veces. ¿Por qué importa que el modelo de lenguaje no pueda hacer matemáticas? Porque todo el mercado de IA ahora se basa en la suposición de que los modelos de lenguaje se generalizan bien para muchas tareas interesantes, incluidas cosas como la declaración de impuestos o la contabilidad. Lo que Choi quiso decir es que debemos buscar los límites de la IA y trabajar hacia adentro, no al revés, porque eso nos dice más sobre sus capacidades.
El resto de su discurso fue igualmente interesante y estimulante. Puedes verlo completo aquí.
Rod Brooks, presentado como un “destructor de ruidos”, proporcionó una historia interesante de algunos de los conceptos básicos de aprendizaje automático ¡Conceptos que parecen nuevos solo porque la mayoría de las personas que los utilizan no existían cuando se inventaron! Viajando a través de las décadas, toca a McCulloch, Minsky e incluso Hebb, y muestra cómo estas ideas han seguido siendo relevantes mucho más allá de su tiempo. Es un recordatorio útil de que el aprendizaje automático es un campo sobre los hombros de gigantes que se remonta a la época de la posguerra.
Muchos, muchos documentos se han enviado a CVPR y se han presentado en CVPR, y mirar solo a los ganadores de los premios es reductivo, pero este es un resumen de noticias, no una revisión exhaustiva de la literatura. Esto es lo que el jurado de la conferencia encontró más interesante:
VISPROG, desarrollado por investigadores de AI2, es un tipo de metamodelo que realiza tareas complejas de manipulación visual utilizando un conjunto de herramientas de código universal. Supongamos que tiene una imagen de un oso pardo en la hierba (como se muestra en la imagen); puede decirle que simplemente “reemplace el oso con un oso polar en la nieve” y funcionará. Identifica partes de una imagen, las separa visualmente, busca y encuentra o genera reemplazos adecuados, y luego vuelve a armar todo de manera inteligente sin más indicaciones por parte del usuario. La interfaz del Blade Runner “mejorado” empieza a parecer casi vulgar. Y esta es solo una de sus muchas posibilidades.
“Conducción autónoma orientada a la planificación” de un grupo de investigación multiinstitucional chino, está tratando de unificar los diversos elementos del enfoque bastante fragmentario que hemos adoptado para los automóviles autónomos. Suele haber una especie de proceso incremental de “percepción, anticipación y planificación”, cada uno de los cuales puede tener un cierto número de subtareas (como segmentar personas, identificar obstáculos, etc.). Su modelo intenta ponerlo todo en un solo modelo, similar a los modelos multimodales que vemos que pueden usar texto, audio o imágenes como entradas y salidas. De manera similar, este modelo simplifica un poco las complejas interdependencias de la pila de conducción autónoma moderna.
DynIBAR muestra un método confiable y de alta calidad para interactuar con video utilizando “campos de radiación neuronal dinámicos” o NeRF. Una comprensión profunda de los objetos en el video permite cosas como la estabilización, los movimientos de las muñecas y otras cosas que generalmente no espera que sean posibles con el video. De nuevo… “impulso”. Esto es definitivamente algo por lo que Apple te contrata y luego se lleva el crédito en la próxima WWDC.
cabina de ensueño Puede que recuerde un poco a principios de este año cuando se lanzó el sitio web del proyecto. Este es el mejor sistema de deepfake hasta ahora, no hay forma de evitarlo. Por supuesto, hacer este tipo de manipulación de imágenes es valioso y poderoso, además de divertido, e investigadores como Google están trabajando para hacerlo más fluido y realista. Consecuencias… tal vez más tarde.
El premio a la mejor tesis de estudiante se otorga a un método de comparación y coincidencia de mallas 3D o nubes de puntos; francamente, es demasiado técnico para mí tratar de explicarlo, pero es una habilidad importante para percibir el mundo real y las mejoras son bienvenidas. Consulte el artículo aquí para obtener ejemplos y más información.
Solo dos pepitas más: Intel ha mostrado este interesante modelo, el LDM3D, para generar imágenes 3D 360 como entornos virtuales. Entonces, cuando estás en el metaverso y dices “ponnos en una ruina de la jungla cubierta de maleza”, simplemente crea una nueva a pedido.
Y Meta soltó herramienta de síntesis de voz llamada Voicebox es muy bueno para extraer las características de las voces y replicarlas incluso si la entrada no es limpia. Normalmente, necesita una gran cantidad y variedad de grabaciones de voz pura para replicar su voz, pero Voicebox lo hace mejor que muchos otros con menos datos (piense en 2 segundos). Afortunadamente, por ahora mantienen a este genio en la botella. Para aquellos que piensan que podrían necesitar clonar su voz, consulten Acapela.