En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
K-Means
Définition iA

K-Means

K-Means est un algorithme de clustering non supervisé qui regroupe les données en k clusters prédéfinis. Chaque point est attribué au cluster dont le centroïde (le point moyen) est le plus proche. L’objectif est de minimiser la distance intra-cluster et de maximiser la séparation entre clusters.

Contexte
Introduit dans les années 1960, K-Means est l’un des algorithmes les plus utilisés pour l’exploration et la segmentation des données. Il repose sur une procédure itérative : initialisation des centroïdes, affectation des points aux clusters, mise à jour des centroïdes, puis répétition jusqu’à convergence.

Exemples d’applications

  • Marketing : segmentation de clients en groupes de comportements similaires.
  • Vision par ordinateur : compression d’images en réduisant le nombre de couleurs.
  • Biologie : regroupement de gènes ou de protéines selon leurs profils d’expression.

Avantages et limites

  • ✅ Simple à implémenter et rapide.
  • ✅ Fonctionne bien avec de grands volumes de données.
  • ❌ Sensible au choix initial des centroïdes.
  • ❌ Suppose des clusters de forme sphérique et de taille similaire.
  • ❌ Nécessite de connaître k à l’avance.

K-Means est souvent présenté comme l’algorithme de clustering le plus accessible. Sa logique est intuitive : on choisit k centres, puis les données se regroupent autour de ceux-ci, avec une mise à jour progressive des centroides. Cette itération continue jusqu’à ce que les groupes se stabilisent.

Ses limites sont bien connues. L’algorithme suppose que les clusters sont convexes et de taille comparable, ce qui n’est pas toujours réaliste. De plus, il est sensible aux valeurs aberrantes qui peuvent tirer les centroides dans la mauvaise direction. Pour contourner cela, on peut appliquer une normalisation des données, supprimer les outliers ou tester d’autres méthodes comme DBSCAN.

En pratique, K-Means est largement utilisé en analyse marketing (segmentation de clientèle), en vision par ordinateur (quantification de couleurs, reconnaissance de formes simples) et même en bioinformatique, où il permet de regrouper des gènes ou des protéines en fonction de leur expression.

📚 Références

  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning.