Padding
El padding es una técnica de aprendizaje profundo que consiste en añadir píxeles adicionales —generalmente con valor cero— en los bordes de una imagen antes de aplicar una convolución. Esto permite controlar el tamaño de la salida y conservar mejor la información espacial.
Importancia
Sin padding, cada convolución reduce el tamaño de la imagen. Una convolución 3×3 sobre una imagen 32×32 da como resultado una salida de 30×30. Después de varias capas, el mapa de características puede volverse demasiado pequeño para aprender patrones complejos. Con padding, se logra que las dimensiones se mantengan estables y que incluso las esquinas de la imagen aporten información al modelo.
Tipos comunes
- Zero padding: relleno con ceros.
- Same padding: salida con las mismas dimensiones que la entrada.
- Valid padding: sin relleno, la salida se reduce.
- Reflect padding: utiliza píxeles reflejados para reducir distorsiones.
Aplicaciones prácticas
- Clasificación de imágenes: redes profundas como VGG o ResNet emplean padding para mantener dimensiones manejables.
- Visión por computadora aplicada a vehículos autónomos: detección de peatones en los bordes de la cámara.
- Redes generativas: en GANs y autoencoders, el padding ayuda a reconstruir imágenes completas.
Limitaciones
Aunque es útil, el padding puede generar “bordes artificiales” que no representan información real. Además, aumenta el número de operaciones de convolución, lo que implica mayor coste computacional.
📚 Referencias
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.