PaLM-E de Google es un cerebro robótico generalista que toma comandos


Agrandar / Un brazo robótico controlado por PaLM-E agarra una bolsa de papas fritas en un video de demostración. Google Research El lunes, un grupo de investigadores de IA de Google y Technische Universität Berlin presentó PaLM-E, un modelo de lenguaje visual incorporado (VLM) multimodal con 562 mil millones de parámetros que integra visión y habla para el control de robots. Afirman que es el VLM más grande jamás diseñado y que puede realizar una amplia variedad de tareas sin necesidad de volver a capacitarse. Según Google, con un comando de alto nivel como «Tráeme los chips de arroz del cajón», PaLM-E puede crear un plan de acción para una plataforma robótica móvil de un solo brazo (desarrollada por Google Robotics) y ejecutar las acciones por PaLM-E hace esto analizando datos de la cámara del robot sin requerir una representación de escena preprocesada. Esto elimina la necesidad de que un humano procese previamente o anote los datos y permite un control de robot más autónomo. En un video de demostración proporcionado por Google, PaLM-E realiza «Tráeme los chips de arroz del cajón», lo que implica varios pasos de planificación además de incorporar comentarios visuales de la cámara del robot. En un video de demostración proporcionado por Google, PaLM-E realiza «Tráeme los chips de arroz del cajón», lo que implica varios pasos de planificación además de incorporar comentarios visuales de la cámara del robot. También es resistente y capaz de reaccionar a su entorno. Por ejemplo, el modelo PaLM-E puede guiar a un robot para recuperar una bolsa de papas fritas de una cocina, y cuando PaLM-E se integra en el circuito de control, se vuelve resistente a cualquier interrupción que pueda ocurrir durante la tarea. En un ejemplo de video, un investigador toma las fichas del robot y las mueve, pero el robot localiza las fichas y las toma de nuevo. publicidad en otro ejemplo, el mismo modelo PaLM-E dirige de forma autónoma un robot a través de tareas con secuencias complejas que antes requerían la guía humana. El trabajo de investigación de Google explica cómo PaLM-E convierte las instrucciones en acciones:

Demostramos el rendimiento de PaLM-E en tareas de manipulación móvil exigentes y diversas. Seguimos en gran medida la estructura de Ahn et al. (2022) donde el robot tiene que planificar una secuencia de acciones de navegación y manipulación en base a una instrucción de un humano. Por ejemplo, cuando se le indique: «Derramé mi bebida, ¿puedes traerme algo para limpiar?» 4. Deja la esponja”. Inspirándonos en estas tareas, desarrollamos tres casos de uso para probar las habilidades de pensamiento incorporadas de PaLM-E: predicción de ofertas, detección de errores y planificación a largo plazo. Las pautas de bajo nivel provienen de RT-1 (Brohan et al., 2022), un modelo de Transformer que acepta imágenes RGB e instrucciones en lenguaje natural y emite comandos de control de efectores finales.

PaLM-E es un próximo predictor de token y se llama «PaLM-E» porque se basa en el modelo de lenguaje grande (LLM) existente de Google llamado «PaLM» (que es similar a la tecnología detrás de ChatGPT). Google ha «encarnado» PaLM al agregar información sensorial y control robótico. Debido a que se basa en un modelo de lenguaje, PaLM-E toma observaciones continuas, como imágenes o datos de sensores, y las codifica en una secuencia de vectores que tienen el mismo tamaño que los tokens de lenguaje. Esto permite que el modelo «entienda» la información sensorial de la misma manera que procesa el habla. Un video de demostración proporcionado por Google que muestra un robot guiado por PaLM-E y siguiendo la instrucción «Tráeme una estrella verde». Los investigadores dicen que la estrella verde era «un objeto al que este robot no estuvo expuesto directamente». Un video de demostración proporcionado por Google que muestra un robot guiado por PaLM-E y siguiendo la instrucción «Tráeme una estrella verde». Los investigadores dicen que la estrella verde era «un objeto al que este robot no estuvo expuesto directamente». Además del transformador robótico RT-1, PaLM-E se basa en el trabajo anterior de Google en ViT-22B, un modelo de transformador de visión presentado en febrero. ViT-22B recibió capacitación en varias tareas visuales, como clasificación de imágenes, reconocimiento de objetos, segmentación semántica y anotación de imágenes. Google Robotics no es el único grupo de investigación que trabaja en el control de robots con redes neuronales. Este trabajo en particular es similar al reciente documento «ChatGPT for Robotics» de Microsoft, que experimentó de manera similar con la combinación de datos visuales y modelos de lenguaje grandes para el control de robots. Dejando a un lado la robótica, los investigadores de Google observaron varios efectos interesantes que parecen derivarse del uso de un modelo de lenguaje grande como núcleo de PaLM-E. Por un lado, exhibe una «transferencia positiva», lo que significa que puede transferir el conocimiento y las habilidades aprendidas de una tarea a otra, lo que resulta en un «rendimiento significativamente mayor» en comparación con los modelos de robots de una sola tarea. Tú también observado una tendencia con la escala del modelo: «Cuanto más grande es el modelo de lenguaje, más conserva sus capacidades lingüísticas cuando entrena tareas de lenguaje visual y robótica; cuantitativamente, el modelo 562B PaLM-E conserva casi todas sus capacidades lingüísticas».

Y los investigadores afirmar que las capacidades emergentes de PaLM-E, como las cadenas de razonamiento multimodal (permitiendo que el modelo analice una secuencia de entradas que contienen tanto información verbal como visual) y la inferencia de múltiples imágenes (usando múltiples imágenes como entrada para llegar a una conclusión o hacer predicciones) incluso aunque solo han sido entrenados con indicaciones cuadro por cuadro. En este sentido, PaLM-E parece continuar con la tendencia de sorpresas que surgen cuando los modelos de aprendizaje profundo se vuelven más complejos con el tiempo. Los investigadores de Google planean explorar otras aplicaciones de PaLM-E para escenarios del mundo real, como la automatización del hogar o la robótica industrial. Y esperan que PaLM-E estimule una mayor investigación sobre el pensamiento multimodal y la IA incorporada. “Multimodal” es una palabra de moda que escucharemos cada vez más a medida que las empresas recurran a la inteligencia artificial general que afirma ser capaz de realizar tareas comunes como un ser humano.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.