La IA jerárquica que ganó el concurso NeurIPS-2020 MineRL

Descripción general de la arquitectura jerárquica de los investigadores. Crédito: Mao et al.

En los últimos años, las herramientas computacionales basadas en el aprendizaje por refuerzo han logrado resultados notables en numerosas tareas, incluida la clasificación de imágenes y la manipulación robótica de objetos. Mientras tanto, los informáticos también han estado entrenando modelos de aprendizaje por refuerzo para jugar juegos humanos y videojuegos específicos.

Para desafiar a los equipos de investigación que trabajan en técnicas de aprendizaje por refuerzo, la conferencia anual de Sistemas de procesamiento de información neuronal (NeurIPS) presentó la competencia MineRL, un concurso en el que se prueban diferentes algoritmos en la misma tarea en Minecraft, el reconocido juego de computadora desarrollado por Mojang Studios. Más específicamente, se les pide a los concursantes que creen algoritmos que necesitarán obtener un diamante a partir de píxeles sin procesar en el juego de Minecraft.

Los algoritmos solo se pueden entrenar durante cuatro días y en 8.000.000 de muestras creadas por el simulador MineRL, utilizando una sola máquina GPU. Además del conjunto de datos de entrenamiento, los participantes también reciben una gran colección de demostraciones humanas (es decir, fotogramas de video en los que la tarea es resuelta por jugadores humanos).

Un equipo de investigadores del Ark Lab de Huawei Noah, la Universidad de Tianjin y la Universidad de Tsinghua ganó la competencia NeurIPS-MineRL 2020. Mediante el uso de una herramienta de inteligencia artificial jerárquica (IA) de muestra eficiente llamada SEIHAI, los investigadores pudieron superar a todos los demás algoritmos que participaron en el concurso.

«Presentamos SEIHAI, una IA jerárquica de muestra eficiente que aprovecha al máximo las demostraciones humanas y la estructura de tareas», escribieron Hangyu Mao y sus colegas en un artículo que describe su IA, que fue prepublicado en arXiv. «Específicamente, dividimos la tarea en varias subtareas secuencialmente dependientes y entrenamos a un agente adecuado para cada subtarea mediante el aprendizaje por refuerzo y el aprendizaje por imitación».

Para obtener un diamante en Minecraft, los jugadores deben seguir una serie de pasos. Secuencialmente, necesitan cortar un árbol para crear un tronco, luego usar el tronco para fabricar un pico de madera, que luego usarán para excavar un adoquín. Finalmente, el adoquín debe colocarse en un horno y convertirse en una piedra, que podría ser un diamante u otra cosa. El diamante es raro en el juego, lo que complica aún más la tarea para los participantes de MineRL.

Para abordar la tarea de la manera más eficaz, Mao y sus colegas la dividieron en una serie de subtareas, cada una de las cuales requería diferentes habilidades y capacidades. Luego capacitaron a diferentes agentes para abordar cada una de las subtareas individualmente, utilizando el aprendizaje por refuerzo o el aprendizaje por imitación, según cuál se adaptara mejor al problema que estaban tratando de resolver.

Para decidir qué agente era más adecuado para cada una de las diferentes subtareas, los investigadores utilizaron un programador, una herramienta que seleccionaba un agente para diferentes situaciones en función de las características únicas de la subtarea que debía completarse. El modelo jerárquico creado por los investigadores superó significativamente a todos los demás algoritmos y modelos que participan en el concurso MineRL 2020, logrando resultados notables.

«Ganamos el primer lugar en la preliminar y la final de la competencia NeurIPS-2020 MineRL, lo que demuestra la eficiencia de nuestro método jerárquico, SEIHAI», escribieron los investigadores en su artículo. «Creemos que el desarrollo de métodos que combinen adecuadamente los antecedentes humanos y las técnicas basadas en el aprendizaje de muestras eficientes es una forma competitiva de resolver tareas complejas con demostraciones limitadas, recompensas escasas pero una estructura de tareas explícita».


Los robots que deciden su próximo movimiento necesitan ayuda para priorizar


Más información:
Hangyu Mao et al, SEIHAI: Una IA jerárquica con eficiencia de muestra para la competencia MineRL. arXiv: 2111.08857v1 [cs.LG], arxiv.org/abs/2111.08857

© 2021 Science X Network

Citación: SEIHAI: La IA jerárquica que ganó la competencia NeurIPS-2020 MineRL (2021, 6 de diciembre) recuperada el 7 de diciembre de 2021 de https://techxplore.com/news/2021-12-seihai-hierarchical-ai-won-neurips-. html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con el propósito de estudio o investigación privada, ninguna parte puede ser reproducida sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.

Deja un comentario