Reward
En el aprendizaje por refuerzo, la recompensa es la señal que recibe un agente para evaluar la calidad de su acción en un estado determinado. Es el motor que guía el aprendizaje, reforzando las decisiones correctas y penalizando las equivocadas.
Contexto
Inspirado en teorías conductistas, el concepto de recompensa define la interacción agente–entorno. El objetivo de un agente no es solo obtener recompensas inmediatas, sino maximizar la recompensa acumulada a lo largo del tiempo.
Ejemplos
- Juegos: un agente de Go recibe una recompensa positiva al ganar una partida.
- Robótica: un dron obtiene recompensa si evita obstáculos.
- Sistemas de recomendación: recompensa positiva cuando el usuario interactúa con un contenido sugerido.
Ventajas y limitaciones
- ✅ Permite el aprendizaje autónomo mediante prueba y error.
- ✅ Aplicable en campos muy variados.
- ❌ La definición de la función de recompensa es crítica y difícil de diseñar.
- ❌ Puede inducir comportamientos no deseados si está mal planteada (reward hacking).
En el aprendizaje por refuerzo, la recompensa actúa como un contrato implícito entre el diseñador y el agente. Lo que se premie será lo que el agente intente maximizar, incluso si eso conduce a resultados absurdos o no deseados.
Un ejemplo clásico es el de agentes en videojuegos que encuentran “trucos” para acumular puntos sin realmente jugar bien, un fenómeno conocido como reward hacking. Estos casos muestran lo delicado que resulta traducir metas humanas en señales numéricas.
Otra dimensión importante es la diferencia entre recompensas escasas y densas. Mientras que las primeras reflejan con precisión el éxito final, las segundas permiten entrenar de forma más rápida y estable. En la práctica, muchos sistemas combinan ambos tipos para equilibrar eficiencia y fidelidad al objetivo real.
📚 Referencias
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction.
- Silver, D. (UCL). Reinforcement Learning Lectures.
- Aprendizaje mediante RLHF para LLMs y otros modelos, Innovatiana.