
El aprendizaje por refuerzo (RL) es un área interdisciplinaria del aprendizaje automático y del control óptimo que se ocupa de cómo un agente inteligente debe tomar acciones en un entorno dinámico con el fin de maximizar la recompensa acumulada. El aprendizaje por refuerzo es uno de los tres paradigmas básicos del aprendizaje automático, junto con el aprendizaje supervisado y el no supervisado.”[1]
“El aprendizaje por refuerzo se diferencia del aprendizaje supervisado en que no necesita pares de entrada/salida etiquetados, ni requiere que las acciones subóptimas sean corregidas explícitamente. En cambio, se centra en encontrar un equilibrio entre la exploración (de territorios desconocidos) y la explotación (del conocimiento actual), con el objetivo de maximizar la recompensa a largo plazo, cuya retroalimentación puede ser incompleta o retrasada.”[1]
“El aprendizaje por refuerzo (RL) es una técnica de aprendizaje automático (ML) que entrena software para tomar decisiones que logren los resultados más óptimos. Imita el proceso de aprendizaje por prueba y error que los humanos utilizan para alcanzar sus metas. Las acciones del software que contribuyen al objetivo se refuerzan, mientras que las acciones que lo alejan se ignoran.”[2]
“El aprendizaje por refuerzo permite que los sistemas autónomos aprendan de sus propias experiencias en lugar de hacerlo exclusivamente de instructores expertos.”[3]
El aprendizaje por refuerzo es una tecnología nueva y emergente, y forma parte de estos potentes modelos de IA. “Es posible que hayas leído en las noticias sobre el aprendizaje por refuerzo siendo excelente en el juego de diversos videojuegos, incluso superando a los humanos. Yo mismo también he utilizado el aprendizaje por refuerzo muchas veces para controlar distintos tipos de robots.”[4]
[1] Wikipedia Aprendizaje_por_refuerzo
[2] Amazon Aprendizaje_por_refuerzo
[3] Sciencedirect Aprendizaje_por_refuerzo
[4] Andrew Ng, Universidad de Stanford & DeepLearning.AI, Especialización en Aprendizaje Automático, Curso 3, Semana 1
