La gente lleva décadas soñando con robots mayordomos, pero una de las mayores barreras ha sido conseguir que las máquinas entiendan nuestras instrucciones. Google ha empezado a cerrar la brecha uniendo la última inteligencia artificial del lenguaje con robots de última generación.

El lenguaje humano es a menudo ambiguo . La forma en que hablamos de las cosas depende en gran medida del contexto, y normalmente se requiere una comprensión innata de cómo funciona el mundo para descifrar lo que estamos hablando sobre. Por eso, aunque los robots pueden ser entrenados para llevar a cabo acciones en nuestro nombre, transmitirles nuestras intenciones puede ser complicado.

Si tienen alguna capacidad de entender el lenguaje en absoluto, los robots suelen estar diseñados para responder a instrucciones cortas y específicas. Más o pa que indicaciones como «necesito algo para lavar estas patatas» probablemente pasen desapercibidas s , al igual que las solicitudes complicadas de varios pasos como » C ¿puedes volver a poner esta manzana en la nevera y traer el chocolate?»

En cambio, un nuevo tipo de modelos lingüísticos masivos inspirados en el innovador GPT-3 de Open AI, son capaces de realizar algunas hazañas lingüísticas impresionantes. Al entrenarse con enormes cantidades de material escrito extraído de la web, estos AI son capaces de generar prosa de alta calidad, alimentar chatbots convincentes y responder a preguntas complicadas sobre el texto.

Google ha intentado combinar ambas cosas en un nuevo proyecto destinado a potenciar la capacidad de los robots para entendernos. Combinando su Modelo lingüístico de gran tamaño PaLM con robots fabricados por Siempre y día Robots -un spinoff de la «moonshot factory» de Alphabet, X- han construido prototipo de mayordomo mecanizado que puede hacer la voluntad de un humano en la casa.

Los robots, que ruedan un redondo sobre ruedas y dotados de un único brazo robótico y una cabeza con sensores, fueron entrenados primero para realizar una serie de acciones básicas por operadores humanos que los controlaban a distancia a través de una serie de tareas.

Ingenieros creó entonces un nuevo software de control que aprovecha las habilidades lingüísticas de PaLM para traducir las órdenes habladas o escritas de un humano en las acciones necesarias para lograrlo. El software aprovecha un enfoque llamado «cadena de pensamiento que incita» que Google presentó a principios de este año, que permite a los modelos desglosar los problemas en una serie de pasos intermedios.

Utiliza esto para dividir las peticiones en subproblemas más pequeños que puede resolver con su conjunto de acciones preentrenadas. Por ejemplo, «consígueme un C oke» podría convertirse en «ir a la cocina, abrir la nevera, coger un C oke, y volver a la sala de estar».

Los robots se les dio 101 instrucciones por parte de usuarios humanos y fueron capaces de dar una respuesta sensata el 84 por ciento de las veces, y de hecho las llevaron a cabo sin problemas ly El 74% de las veces.

Esto representa una mejora del 14% y del 13%, respectivamente, en comparación con el robot s utilizando un modelo lingüístico menos potente que el PaLM, Google’s head of robotics Vincent Vanhoucke said in a blog post . Los robots equipados con PaLM también experimentaron un aumento del 26% en su capacidad para llevar a cabo complicadas solicitudes de varios pasos.

Sin embargo, esto es todavía un trabajo en progreso, y los robots todavía pueden ser lanzados o f f por cosas tan sencillas como un cambio de iluminación o el desplazamiento de objetos fuera de su posición habitual, según Cableado . No está claro si el problema de la comprensión del lenguaje es realmente más acuciante que conseguir que los robots realicen con éxito tareas en el siempre cambiante mundo real.

Pero los investigadores esperan que los beneficios puedan ir también en la otra dirección, dando a los grandes modelos lingüísticos una forma de interactuar con el mundo físico. Aunque todavía no está claro cómo podría utilizarse este proyecto para volver a entrenar estos modelos, podría ser una forma de empezar a basar las habilidades lingüísticas de la IA en el mundo real.

Así que, independientemente de que esta línea de investigación lleve o no a que los mayordomos robóticos se conviertan en una realidad, parece probable que impulse los campos de robótica y la IA hacia nuevas y potentes capacidades.

Crédito de la imagen: Robots cotidianos