Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Glosario
Quantization
Definición de IA

Quantization

La cuantización es una técnica de compresión de modelos de IA que reduce la precisión numérica de los parámetros (pesos y activaciones). Por ejemplo, transformar valores en coma flotante de 32 bits (FP32) en formatos más compactos como 16 bits (FP16) o enteros de 8 bits (INT8). Esto permite disminuir el tamaño del modelo y acelerar la inferencia en dispositivos con recursos limitados.

Contexto
Forma parte de las estrategias modernas de optimización de modelos junto con el pruning y la destilación de conocimiento. Su uso se ha extendido con la necesidad de desplegar IA en dispositivos móviles, wearables o sistemas embebidos, donde el consumo de memoria y energía es determinante.

Ejemplos

Ventajas y limitaciones

  • ✅ Reducción significativa de memoria y tiempo de inferencia.
  • ✅ Mejor eficiencia energética.
  • ❌ Posible pérdida de precisión.
  • ❌ Puede necesitar técnicas adicionales de calibración.

La cuantización puede aplicarse de distintas formas según el objetivo. La post-training quantization es rápida y sencilla, ya que se aplica después del entrenamiento; sin embargo, puede introducir más pérdida de precisión. En cambio, la quantization-aware training entrena al modelo desde el inicio considerando los límites de representación numérica, lo que da lugar a modelos más estables.

No todas las capas toleran la cuantización de la misma manera. Las primeras capas suelen ser más sensibles, porque capturan patrones básicos, mientras que en las capas más profundas la reducción de precisión afecta menos. Por ello, en la práctica se utilizan esquemas mixtos que combinan FP16 y INT8 para optimizar el rendimiento sin sacrificar calidad.

Existen también investigaciones en cuantización extrema, con formatos de 4 bits o incluso redes binarias. Estos métodos son prometedores para sistemas embebidos muy limitados, aunque todavía presentan problemas de exactitud en tareas complejas como la visión médica o el procesamiento de lenguaje.

En definitiva, la cuantización es una pieza clave en la expansión de la inteligencia artificial hacia el edge computing, donde los modelos necesitan ser ligeros, rápidos y sostenibles para funcionar en el día a día.

📚 Referencias

  • Jacob, B. et al. (2018). Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference.
  • Han, S. et al. (2016). Deep Compression.