Bagging
Le bagging, ou agrégation par bootstrap, est une technique d’ensemble qui consiste à entraîner plusieurs modèles de manière indépendante sur des sous-échantillons aléatoires (tirés avec remise) des données d’apprentissage, puis à combiner leurs prédictions pour améliorer les performances globales.
Pourquoi c’est utile
Cette méthode permet de réduire la variance et de rendre les modèles plus robustes, en particulier ceux qui sont sensibles aux fluctuations des données, comme les arbres de décision. L’idée est qu’un collectif de modèles diversifiés est plus fiable qu’un seul modèle isolé.
Exemples d’applications
- Forêts aléatoires (Random Forests) : combinaison de nombreux arbres de décision.
- Détection de fraude : analyse de transactions bancaires.
- Médecine prédictive : prédictions issues de données cliniques complexes.
Limites
- Augmente les besoins en calcul.
- Peu efficace pour les modèles biaisés, où l’erreur vient davantage d’un manque de complexité que d’une variance élevée.
Le bagging illustre bien la puissance de la diversité en apprentissage automatique. En entraînant plusieurs modèles indépendants, on obtient une vision plus robuste que celle d’un seul modèle. Cette approche repose sur une intuition simple : les erreurs spécifiques à un modèle seront compensées par les autres.
Son succès s’explique notamment dans les arbres de décision, très sensibles aux variations de données. Le bagging, en les combinant, permet de réduire cette variabilité. L’algorithme Random Forest pousse cette logique encore plus loin en introduisant une sélection aléatoire de variables à chaque division, ce qui accroît la diversité et limite la corrélation entre arbres.
Toutefois, le bagging exige davantage de ressources de calcul et peut être moins efficace avec des modèles naturellement stables comme la régression linéaire. Il reste néanmoins une méthode incontournable, utilisée aussi bien en recherche qu’en production, pour améliorer la fiabilité des systèmes d’IA.
📚 Références
- Breiman, L. (1996). Bagging Predictors. Machine Learning.
- Géron, A. (2019). Apprentissage automatique avec Scikit-Learn, Keras et TensorFlow.