Data Sparsity
La escasez de datos describe la situación en la que un conjunto de datos presenta una gran cantidad de valores nulos, ausentes o irrelevantes. Es un desafío clave en la inteligencia artificial porque los algoritmos requieren información suficiente y representativa para aprender patrones útiles.
Ejemplos comunes
- Sistemas de recomendación: la mayoría de los usuarios califican solo unos pocos productos, lo que genera matrices usuario-producto extremadamente dispersas.
- Procesamiento de lenguaje natural (PLN): las representaciones basadas en bolsas de palabras generan vectores enormes con muchas entradas en cero.
- Sensores 3D: datos de LIDAR o radares producen nubes de puntos con baja densidad.
Formas de manejar la escasez
- Factorización de matrices (SVD, ALS) para descubrir relaciones latentes.
- Imputación estadística para rellenar valores faltantes.
- Embeddings que transforman representaciones dispersas en densas.
- Modelos probabilísticos que estiman distribuciones subyacentes.
La escasez de datos no siempre significa que un conjunto sea inútil, sino que obliga a diseñar estrategias más creativas para aprovechar la información disponible. En el caso del lenguaje natural, por ejemplo, los modelos modernos han superado la dispersión de las bolsas de palabras gracias a los embeddings contextuales, que generan vectores mucho más compactos y expresivos.
En visión por computador, un problema típico son las nubes de puntos obtenidas por LIDAR, que resultan extremadamente dispersas. Para tratarlas, se emplean técnicas de fusión multimodal (combinar imágenes y datos de sensores) o arquitecturas específicas que aprovechan la geometría del espacio 3D.
Finalmente, la escasez plantea también un desafío ético y de equidad: cuando ciertos grupos o escenarios están poco representados en los datos, el modelo puede producir resultados sesgados. Resolver la dispersión no es solo un problema técnico, sino también de cobertura y representatividad social.
Referencias
- Ricci, F., Rokach, L., & Shapira, B. (2015). Recommender Systems Handbook.