¿Has visto alguna vez a una gacela bebé aprender a caminar? Un cervatillo, que es básicamente un mamífero de piernas largas, se pone en pie, se cae, se levanta y se vuelve a caer. Finalmente, se pone de pie lo suficiente como para agitar sus patas con forma de palillo en una serie de casi caídas… ejem, pasos. Sorprendentemente, unos minutos después de esta entrañable exhibición, el cervatillo está saltando como un viejo profesional.

Pues bien, ahora tenemos una versión robótica de esta clásica escena del Serengueti.

En este caso, el cervatillo es un perro robótico de la Universidad de California, en Berkeley. Y también aprende sorprendentemente rápido (en relación con el resto de los robots). El robot también es especial porque, a diferencia de otros robots más llamativos que puedes haber visto en Internet, utiliza la inteligencia artificial para enseñarse a sí mismo a caminar.

Empezando de espaldas, con las piernas agitadas, el robot aprende a darse la vuelta, ponerse de pie y caminar en una hora. Otros diez minutos de acoso con un rollo de cartón son suficientes para enseñarle a resistir y recuperarse de los empujones de sus manipuladores.

No es la primera vez que un robot ha utilizado la inteligencia artificial para aprender a caminar . Pero mientras que los robots anteriores aprendieron la habilidad por ensayo y error a lo largo de innumerables iteraciones en simulaciones, el robot de Berkeley aprendió por completo en el mundo real.

En un papel publicado en el servidor de preimpresiones arXiv, los investigadores -Danijar Hafner, Alejandro Escontrela y Philipp Wu- afirman que transferir al mundo real los algoritmos aprendidos en simulación no es sencillo. Los pequeños detalles y las diferencias entre el mundo real y la simulación pueden hacer tropezar a los robots novatos. Por otra parte, entrenar algoritmos en el mundo real es poco práctico: llevaría demasiado tiempo y desgaste.

Hace cuatro años, por ejemplo, OpenAI presentó una mano robótica con IA que podía manipular un cubo. El algoritmo de control, Dactyl, necesitó unos 100 años de experiencia en una simulación alimentada por 6.144 CPU y 8 GPU Nvidia V100 para realizar esta tarea relativamente sencilla. Las cosas han avanzado desde entonces, pero el problema persiste en gran medida. Los algoritmos de aprendizaje por refuerzo puro necesitan demasiado ensayo y error para aprender habilidades como para poder entrenar en el mundo real. En pocas palabras, el proceso de aprendizaje rompería a los investigadores y robots antes de hacer cualquier progreso significativo.

El equipo de Berkeley se propuso resolver este problema con un algoritmo llamado Dreamer. Construyendo lo que se llama un « modelo mundial El «Soñador» puede proyectar la probabilidad de que una acción futura alcance su objetivo. Con la experiencia, la precisión de sus proyecciones mejora. Al filtrar de antemano las acciones menos exitosas, el modelo del mundo permite al robot averiguar de forma más eficiente lo que funciona.

«El aprendizaje de modelos del mundo a partir de la experiencia pasada permite a los robots imaginar los resultados futuros de las acciones potenciales, reduciendo la cantidad de ensayo y error en el entorno real necesaria para aprender comportamientos exitosos», escriben los investigadores. «Al predecir los resultados futuros, los modelos del mundo permiten planificar y aprender comportamientos con sólo una pequeña cantidad de interacción en el mundo real».

En otras palabras, un modelo mundial puede reducir el equivalente a años de formación en una simulación a no más de una hora incómoda en el mundo real.

El enfoque puede tener una relevancia mayor que la de los perros robot. El equipo también aplicó Dreamer a un brazo robótico de recoger y colocar y a un robot con ruedas. En ambos casos, descubrieron que Dreamer permitía a sus robots aprender eficazmente las habilidades pertinentes, sin necesidad de tiempo de simulación. Otras aplicaciones futuras más ambiciosas podrían ser coches autodirigidos .

Por supuesto, todavía hay retos que afrontar. Aunque el aprendizaje por refuerzo automatiza parte de la intrincada codificación manual que hay detrás de los robots más avanzados de hoy en día, sigue requiriendo que los ingenieros definan los objetivos de un robot y lo que constituye el éxito, un ejercicio que requiere mucho tiempo y que está abierto a entornos del mundo real. Además, aunque el robot sobrevivió a los experimentos del equipo, un entrenamiento más prolongado de habilidades más avanzadas puede resultar demasiado para que los futuros robots sobrevivan sin sufrir daños. Los investigadores afirman que podría ser fructífero combinar el entrenamiento en simulador con el aprendizaje rápido en el mundo real.

Aun así, los resultados hacen avanzar la IA en la robótica un paso más. Dreamer refuerza el argumento de que «el aprendizaje por refuerzo será una herramienta fundamental en el futuro del control de los robots», afirma Jonathan Hurst, profesor de robótica de la Universidad Estatal de Oregón le dijo a MIT Technology Review .

Crédito de la imagen: Danijar Hafner / YouTube