En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Clustering
Définition iA

Clustering

La clusterisation est une méthode d’apprentissage non supervisé qui vise à regrouper des objets ou données similaires dans des ensembles appelés clusters. Contrairement à la classification supervisée, aucune étiquette n’est fournie : l’algorithme découvre seul les structures ou regroupements naturels des données.

Algorithmes courants

  • K-Means : partitionne les données en k groupes selon la proximité aux centroïdes.
  • Hierarchical Clustering : construit une hiérarchie de clusters sous forme d’arbre (dendrogramme).
  • DBSCAN : identifie des regroupements denses et rejette les points isolés comme anomalies.
  • Gaussian Mixture Models (GMM) : suppose que les données proviennent de distributions probabilistes gaussiennes.

Applications

  • Segmentation de clientèle en marketing.
  • Analyse de réseaux sociaux pour détecter des communautés.
  • Biologie : classification de gènes ou cellules en groupes fonctionnels.
  • Détection d’anomalies dans la cybersécurité ou la finance.

Le clustering est une technique clé lorsqu’on veut laisser parler les données sans imposer de catégories préexistantes. C’est ce qui le différencie fondamentalement de la classification supervisée. Cette liberté permet de découvrir des structures émergentes, mais elle implique aussi une certaine subjectivité dans l’interprétation des résultats.

Parmi les usages courants, on retrouve la segmentation marketing, l’analyse de réseaux sociaux (identifier des communautés), ou encore la biologie (détection de sous-types de cellules à partir de données génomiques). Chaque domaine adapte les algorithmes à ses besoins et contraintes.

Un défi majeur reste l’évaluation de la qualité des clusters. Sans vérité terrain, il faut recourir à des mesures internes (compacité, séparation) ou externes quand une vérité approximative est disponible. Enfin, il est fréquent de combiner le clustering avec des méthodes de réduction de dimension comme PCA ou t-SNE pour rendre les regroupements plus lisibles et exploitables.

Référence

  • Kaufman, L. & Rousseeuw, P. (2009). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley.