Decision Boundary
En apprentissage automatique, une frontière de décision est une ligne (en deux dimensions) ou une surface (dans des espaces de dimension supérieure) qui sépare les différentes classes d’un problème de classification. Elle représente la limite à partir de laquelle un modèle prédit qu’un point de données appartient à une classe plutôt qu’à une autre.
Exemple
- Dans un modèle de régression logistique binaire, la frontière est une ligne droite séparant deux classes.
- Dans des modèles plus complexes (réseaux neuronaux, SVM avec noyaux non linéaires), la frontière peut être courbe et de forme complexe.
Applications
- Reconnaissance d’images : distinguer un chat d’un chien sur la base des pixels.
- Détection de fraude : séparer transactions normales et suspectes.
- Médecine : classifier tumeurs bénignes vs malignes.
Importance
La qualité de la frontière reflète la capacité du modèle à généraliser :
- Trop simple → sous-apprentissage (underfitting).
- Trop complexe → sur-apprentissage (overfitting).
On peut voir la frontière de décision comme une carte mentale tracée par le modèle : d’un côté, il attribue une classe, de l’autre une autre. Ce concept est central en classification, car il détermine la capacité du modèle à distinguer correctement des catégories parfois proches.
La complexité de cette frontière dépend directement de la puissance du modèle. Une régression logistique dessine une séparation linéaire, claire mais limitée. Un réseau de neurones profond ou une SVM à noyau peut générer des frontières extrêmement sinueuses, capables de capturer des motifs complexes mais plus difficiles à interpréter.
En pratique, l’étude des frontières de décision est utile pour diagnostiquer la performance d’un modèle. Si la frontière colle trop aux points d’entraînement, c’est un signe de surapprentissage. À l’inverse, une frontière trop grossière signale un sous-apprentissage.
Référence
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.