Internet

Gemini AI está haciendo que los robots de Google sean más inteligentes

DeepMind utiliza recorridos en vídeo y Gemini 1.5 Pro para entrenar robots y que completen tareas.

Aplicación de Gemini Gemini AI está haciendo que los robots de Google sean más inteligentes (GOOGLE/Europa Press)

Google está utilizando su potente modelo de lenguaje Gemini AI para entrenar a sus robots, dotándolos de nuevas habilidades de navegación y comprensión del lenguaje natural. Un equipo de investigadores de DeepMind, la división de inteligencia artificial de la compañía, ha publicado un nuevo artículo de investigación que describe cómo Gemini 1.5 Pro, la última versión de su modelo, permite a los robots interactuar con los usuarios de forma más intuitiva.

PUBLICIDAD

El proceso funciona de la siguiente manera: Se filma un recorrido en video del entorno en el que se moverá el robot, como una casa u oficina; luego, Gemini 1.5 Pro “observa” el video y aprende sobre el entorno, identificando objetos, ubicaciones y relaciones espaciales. Los usuarios pueden dar instrucciones al robot en lenguaje natural, como “tráeme una cerveza del refrigerador” o “¿dónde está mi teléfono?”.

Finalmente, el robot utilizará la información aprendida del video y las instrucciones del usuario para navegar por el entorno y completar la tarea.

Resultados prometedores

Los investigadores de DeepMind han probado esta tecnología con un robot llamado RT-2, y los resultados son prometedores: El robot pudo completar correctamente más del 90% de las instrucciones de los usuarios en un área de operaciones de más de 9,000 pies cuadrados.

Además, se observó “evidencia preliminar” de que Gemini 1.5 Pro permite al robot planificar cómo realizar tareas más complejas que la simple navegación. Por ejemplo, si un usuario le pide al robot que le traiga una Coca-Cola, el robot sabe que debe ir al refrigerador, buscarla y luego informar al usuario.

Si bien las demostraciones en video son impresionantes, la tecnología aún se encuentra en sus primeras etapas de desarrollo. El artículo de investigación revela que el robot tarda entre 10 y 30 segundos en procesar cada instrucción, lo que puede parecer lento para un uso cotidiano.

A pesar de estas limitaciones, el trabajo de DeepMind representa un avance significativo en el desarrollo de robots que pueden interactuar con los humanos de manera natural y eficiente. Es posible que pase un tiempo antes de que estos robots sean parte de nuestras vidas diarias, pero sin duda tienen el potencial de hacernos la vida más fácil y eficiente.

PUBLICIDAD

Tags


Lo Último