Boosting
Le boosting est une méthode d’apprentissage ensembliste (ensemble learning) qui combine plusieurs modèles dits « faibles » — souvent des arbres de décision peu profonds — afin de créer un modèle global plus performant. Contrairement au bagging, le boosting construit les modèles de manière séquentielle : chaque nouveau modèle est entraîné pour corriger les erreurs commises par les précédents.
Intuition
- Un « apprenant faible » est un modèle qui performe à peine mieux que le hasard.
- Le boosting les entraîne les uns après les autres : chaque itération se concentre sur les exemples mal classés ou mal prédits par les modèles précédents.
- Le modèle final agrège l’ensemble des apprenants, généralement via un vote pondéré.
Exemples d’algorithmes
- AdaBoost (Adaptive Boosting) : attribue des poids plus élevés aux exemples mal classés.
- Gradient Boosting : corrige les erreurs en minimisant directement une fonction de perte.
- XGBoost, LightGBM, CatBoost : implémentations modernes et optimisées utilisées en compétition de data science.
Applications
- Finance : détection de fraude bancaire.
- Santé : diagnostic assisté par IA.
- Marketing : prédiction de churn.
- Compétitions Kaggle : boosting domine souvent les classements.
Défis
- Risque de surapprentissage si le nombre d’itérations est trop élevé.
- Temps de calcul plus long qu’avec des méthodes simples.
- Hyperparamètres complexes à ajuster (profondeur des arbres, taux d’apprentissage, nombre d’itérations).
Le boosting peut être vu comme un processus d’apprentissage itératif et collaboratif : chaque modèle faible apporte une petite amélioration, mais l’ensemble final devient remarquablement performant. Contrairement au bagging, qui mise sur la diversité par échantillonnage aléatoire, le boosting cherche à corriger systématiquement les erreurs passées.
Cette approche est particulièrement efficace pour les données tabulaires, un domaine où les algorithmes de type gradient boosting dominent encore les compétitions de data science. Leur succès s’explique par un compromis intéressant : ils offrent de très bonnes performances prédictives tout en restant plus rapides à entraîner et à interpréter que certains réseaux neuronaux profonds.
Néanmoins, le boosting n’est pas exempt de limites. Il est sensible aux données bruitées et aux valeurs aberrantes, car ces dernières reçoivent un poids croissant au fil des itérations. De plus, la recherche des bons hyperparamètres (taux d’apprentissage, profondeur maximale, nombre d’arbres) peut s’avérer complexe et chronophage. Une régularisation adéquate et l’usage de techniques comme l’early stopping sont essentiels pour garder un modèle robuste.
Référence
- Freund, Y., & Schapire, R. E. (1997). A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting. Journal of Computer and System Sciences.