En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Data Sparsity
Définition iA

Data Sparsity

La rareté des données (data sparsity) désigne une situation où un jeu de données contient une proportion très élevée de valeurs nulles, manquantes ou non pertinentes. C’est un problème fréquent en apprentissage automatique et en intelligence artificielle, car il limite la capacité des modèles à détecter des motifs fiables.

Contexte et enjeux

  • Dans les systèmes de recommandation, la matrice utilisateur-produit est souvent extrêmement creuse : la majorité des utilisateurs n’ont évalué qu’une petite fraction des produits disponibles.
  • En traitement du langage naturel (NLP), les représentations par sac de mots (bag-of-words) génèrent des matrices très larges et principalement vides.
  • En vision par ordinateur, certains capteurs (ex. LIDAR en conduite autonome) produisent des nuages de points clairsemés, difficiles à traiter.

Approches pour atténuer la sparsité

  • Factorisation de matrices (SVD, ALS) pour systèmes de recommandation.
  • Techniques d’imputation pour valeurs manquantes.
  • Embeddings (Word2Vec, BERT) pour réduire la dimensionnalité et capturer le contexte.
  • Modèles probabilistes comme les processus de Dirichlet.

L’effet de rareté des données complique fortement l’apprentissage automatique, car il réduit la quantité d’exemples exploitables par le modèle. On le rencontre souvent dans les systèmes de recommandation : la majorité des utilisateurs n’évaluent qu’une poignée de produits, rendant la matrice quasi vide.

Pour faire face à ce problème, on combine souvent des techniques de réduction de dimensionnalité (PCA, SVD) avec des représentations plus compactes comme les embeddings. Les modèles de type autoencodeur sont également utilisés pour reconstruire des signaux manquants à partir d’une représentation latente plus dense.

Un autre enjeu réside dans la qualité interprétative : un modèle peut fonctionner malgré la rareté mais apprendre des corrélations fragiles ou trompeuses. C’est pourquoi l’évaluation doit inclure des scénarios réalistes, simulant la rareté telle qu’elle se présente dans l’usage réel.

Références

  • Ricci, F., Rokach, L., & Shapira, B. (2015). Recommender Systems Handbook.