Investigadores de MIT mejoran planificación de tareas visuales
Investigadores del MIT han desarrollado un enfoque de inteligencia artificial para planificar tareas visuales complejas, como la navegación de robots, que es aproximadamente dos veces más efectivo que algunas técnicas existentes. El método utiliza un modelo de visión-lenguaje especializado para percibir el escenario en una imagen y simular acciones necesarias para alcanzar un objetivo.
Esto puede tener un gran impacto en la automatización de procesos y la mejora de la eficiencia en diversas industrias. La capacidad de planificar tareas visuales de manera efectiva puede revolucionar la forma en que se abordan los desafíos en áreas como la robótica y la inteligencia artificial.
Según Yilun Hao, estudiante de posgrado en aeronáutica y astronautica del MIT y autora principal de un artículo sobre esta técnica, “Nuestro marco de trabajo combina las ventajas de los modelos de visión-lenguaje, como su capacidad para entender imágenes, con las fuertes capacidades de planificación de un solucionador formal”. Esto permite que el sistema pueda tomar una sola imagen y moverla a través de una simulación y luego a un plan confiable a largo plazo que podría ser útil en muchas aplicaciones de la vida real.
El sistema puede resolver nuevos problemas que no ha encontrado antes, lo que lo hace adecuado para entornos reales donde las condiciones pueden cambiar en un momento. La tasa de éxito promedio del sistema es de alrededor del 70 por ciento, superando a los mejores métodos de referencia que solo pueden alcanzar alrededor del 30 por ciento.
<p class="ap-cta-
¿Es real esta noticia?
Análisis de fuentes, coherencia factual y contexto en tiempo real.



