En 2020, el algoritmo de aprendizaje automático GPT-3 de OpenAI dejó a la gente boquiabierta cuando, tras ingerir miles de millones de palabras extraídas de Internet, empezó a escupir frases bien elaboradas . This year, DALL-E 2, a cousin of GPT-3 trained on text and images, caused a similar stir online when it began whipping up imágenes surrealistas de astronautas montando a caballo y, más recientemente, de la artesanía rara,photorealistic faces of people that don’t exist.

Ahora, la empresa dice que su última IA ha aprendido a jugar a Minecraft después de ver unas 70.000 horas de vídeos de personas jugando al juego en YouTube.

Escuela de Minas

En comparación con numerosos algoritmos anteriores de Minecraft que operan en versiones «sandbox» del juego mucho más sencillas, la nueva IA juega en el mismo entorno que los humanos, utilizando comandos estándar de teclado y ratón.

En un entrada del blog y preimpresión Detallando el trabajo, el equipo de OpenAI dice que, fuera de la caja, el algoritmo aprendió habilidades básicas, como cortar árboles, hacer tablas y construir mesas de artesanía. También lo observaron nadando, cazando, cocinando y «saltando pilares».

«Hasta donde sabemos, no hay ningún trabajo publicado que opere en el espacio de acción humano completo y no modificado, que incluye la gestión de inventario de arrastrar y soltar y la elaboración de artículos», escribieron los autores en su artículo.

Con el ajuste -es decir, entrenando el modelo con un conjunto de datos más específico- descubrieron que el algoritmo realizaba todas estas tareas de forma más fiable, pero también empezó a avanzar en su destreza tecnológica fabricando herramientas de madera y piedra y construyendo refugios básicos, explorando aldeas y asaltando cofres.

Después de perfeccionarla con el aprendizaje por refuerzo, aprendió a construir un pico de diamante, una habilidad que a los jugadores humanos les lleva unos 20 minutos y 24.000 acciones.

Este es un resultado notable. La IA lleva mucho tiempo luchando con el juego tan abierto de Minecraft. Juegos como el ajedrez y el Go, que la IA ya domina, tienen objetivos claros y se puede medir el progreso hacia esos objetivos. Para conquistar el Go, los investigadores utilizaron aprendizaje por refuerzo En el caso de Minecraft, un algoritmo recibe un objetivo y es recompensado por el progreso hacia ese objetivo. En cambio, Minecraft tiene cualquier número de objetivos posibles, el progreso es menos lineal y los algoritmos de aprendizaje por refuerzo profundo suelen quedarse sin rumbo.

En el concurso MineRL Minecraft 2019 para desarrolladores de IA, por ejemplo, ninguna de las 660 propuestas logró el objetivo relativamente sencillo de la competencia de extraer diamantes .

Cabe destacar que, para premiar la creatividad y demostrar que arrojar potencia de cálculo a un problema no siempre es la respuesta, los organizadores de MineRL pusieron límites estrictos a los participantes: se les permitía una GPU NVIDIA y 1.000 horas de juego grabado. Aunque los participantes tuvieron un rendimiento admirable, el resultado de OpenAI, conseguido con más datos y 720 GPUs NVIDIA, parece demostrar que la potencia de cálculo sigue teniendo sus ventajas.

La IA se vuelve astuta

Con su algoritmo de preentrenamiento de vídeo (VPT) para Minecraft, OpenAI retomó el enfoque que utilizó con GPT-3 y DALL-E: preentrenar un algoritmo en un enorme conjunto de datos de contenido creado por humanos. Pero el éxito del algoritmo no se debe únicamente a la potencia de cálculo o a los datos. Entrenar una IA de Minecraft con tanto vídeo no era práctico antes.

Las secuencias de vídeo en bruto no son tan útiles para las IAs de comportamiento como para los generadores de contenido como GPT-3 y DALL-E. Muestra lo que la gente hace, pero no explica cómo lo hace. Para que el algoritmo relacione el vídeo con las acciones, necesita etiquetas. Un fotograma de vídeo que muestre la colección de objetos de un jugador, por ejemplo, tendría que llevar la etiqueta «inventario» junto con la tecla de comando «E» que se utiliza para abrir el inventario.

Etiquetar cada fotograma de 70.000 horas de vídeo sería… una locura. Así que el equipo pagó a contratistas de Upwork para que grabaran y etiquetaran habilidades básicas de Minecraft. Utilizaron 2.000 horas de este vídeo para enseñar a un segundo algoritmo a etiquetar vídeos de Minecraft, y que El algoritmo IDM anotó las 70.000 horas de imágenes de YouTube. (El equipo afirma que IDM tuvo una precisión de más del 90% al etiquetar los comandos del teclado y el ratón).

Este enfoque, en el que los humanos entrenan un algoritmo de etiquetado de datos para desbloquear conjuntos de datos de comportamiento en línea, puede ayudar a la IA a aprender también otras habilidades. «El VPT allana el camino para permitir a los agentes aprender a actuar viendo la gran cantidad de vídeos que hay en Internet», escribió el investigador. Más allá de Minecraft, OpenAI cree que el VPT puede aportar nuevas aplicaciones en el mundo real, como los algoritmos que hacen funcionar los ordenadores a golpe de vista (imagina, por ejemplo, pedirle a tu portátil que busque un documento y lo envíe por correo electrónico a tu jefe).

Los diamantes no son para siempre

Para disgusto de los organizadores del concurso MineRL quizás, los resultados parecen mostrar que la potencia de cálculo y los recursos siguen moviendo la aguja en la IA más avanzada.

Sin tener en cuenta el coste de la informática, OpenAI dijo que sólo los contratistas de Upwork costaron 160.000 dólares. Aunque, para ser justos, etiquetar manualmente todo el conjunto de datos habría costado millones y habría llevado un tiempo considerable. Y aunque la potencia de cálculo no era despreciable, el modelo era en realidad bastante pequeño. Los cientos de millones de parámetros de VPT son órdenes de magnitud inferiores a los cientos de miles de millones de GPT-3.

Aun así, el afán por encontrar nuevos enfoques inteligentes que utilicen menos datos y computación es válido. Un niño puede aprender lo básico de Minecraft viendo uno o dos vídeos. La IA actual requiere mucho más para aprender incluso habilidades sencillas. Haciendo La IA es más eficiente es un gran reto que merece la pena.

En cualquier caso, OpenAI tiene ganas de compartir esta vez. Los investigadores afirman que el VPT no está exento de riesgos -han controlado estrictamente el acceso a algoritmos como GPT-3 y DALL-E, en parte para limitar el uso indebido-, pero el riesgo es mínimo por ahora. Han abierto los datos, el entorno y el algoritmo y se han asociado con MineRL. Los concursantes de este año son libres de utilizar, modificar y perfeccionar lo último en IA de Minecraft.

Lo más probable es que esta vez consigan superar con creces la extracción de diamantes.

Crédito de la imagen: SIMON LEE / Unsplash