Policy
En aprendizaje por refuerzo (RL), una política es la estrategia que sigue un agente para decidir qué acción realizar en un estado determinado con el objetivo de maximizar la recompensa acumulada.
Contexto
Las políticas pueden clasificarse en:
- Deterministas: cada estado se asocia con una única acción.
- Estocásticas: cada estado se relaciona con una distribución de probabilidades sobre acciones posibles.
En RL, aprender una política óptima es la meta principal: significa que el agente ha adquirido un comportamiento eficiente tras múltiples interacciones con su entorno.
Ejemplos prácticos
- Videojuegos: un agente que aprende a derrotar adversarios siguiendo una política entrenada.
- Robótica: un dron que ajusta su trayectoria para llegar a destino evitando obstáculos.
- Telecomunicaciones: asignación dinámica de ancho de banda en función de la demanda.
Ventajas y limitaciones
- ✅ Resume el comportamiento completo del agente.
- ✅ Puede generalizar a entornos complejos y cambiantes.
- ❌ Difícil de optimizar en espacios de gran dimensión.
- ❌ Requiere exploración intensiva y entrenamiento prolongado.
En la práctica, las políticas no siempre se representan explícitamente como tablas que mapean estados a acciones, ya que esto sería inviable en entornos con millones de posibilidades. En su lugar, se aproximan mediante funciones paramétricas, como redes neuronales profundas. Este enfoque se conoce como policy-based methods, donde el objetivo es ajustar directamente los parámetros de la política para maximizar la recompensa esperada.
Otra distinción importante es entre política fija y política en evolución. La primera corresponde a agentes que siguen reglas predefinidas (por ejemplo, un piloto automático programado con trayectorias estándar). La segunda, en cambio, evoluciona dinámicamente a medida que el agente explora el entorno y ajusta su comportamiento.
En campos críticos como la salud o la conducción autónoma, el diseño de políticas transparentes y seguras es fundamental. No basta con que la política sea “óptima” en términos matemáticos: también debe ser comprensible y confiable para humanos. Aquí surge el debate sobre la explicabilidad de las políticas y su aceptación social.
📚 Referencias
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction.