Logistic Regression
Contrairement à son nom, la régression logistique (ou Logistic Regression) n’est pas utilisée pour prédire une valeur continue, mais pour résoudre des problèmes de classification binaire : oui/non, vrai/faux, spam/pas spam.
Le principe est simple : on applique une fonction logistique (sigmoïde) à une combinaison linéaire des variables d’entrée. Cette fonction “écrase” toutes les valeurs possibles dans une plage comprise entre 0 et 1, que l’on interprète comme une probabilité.
Exemple concret
Supposons qu’on veuille prédire si un email est du spam. Les variables pourraient être : nombre de liens, présence de certains mots-clés, ou longueur du message. La régression logistique calcule un score, applique la fonction sigmoïde, et si le résultat dépasse 0,5, on classifie l’email comme spam.
Importance en IA
Cet algorithme est l’un des plus utilisés car :
- il est facile à interpréter, contrairement aux réseaux de neurones ;
- il est rapide à entraîner ;
- il fournit directement une probabilité, utile pour la prise de décision.
Limites
La régression logistique fonctionne bien avec des variables linéairement séparables, mais devient insuffisante pour des relations complexes, où des algorithmes comme les forêts aléatoires ou les réseaux neuronaux prennent le relais.
En dehors de la santé et de la finance, la régression logistique est couramment appliquée dans des secteurs comme les ressources humaines (prédire le départ d’un collaborateur), le marketing (identifier les clients les plus susceptibles d’acheter), ou encore la politique publique (anticiper le risque de décrochage scolaire). Sa capacité à fournir une probabilité rend les résultats exploitables directement pour la prise de décision.
Un autre atout est sa transparence : les coefficients peuvent être transformés en odds ratios (rapports de cotes), qui montrent de manière intuitive l’impact relatif d’une variable. Par exemple, un coefficient positif important pour la variable « fumeur » dans un modèle médical signifie que le fait d’être fumeur augmente significativement la probabilité d’avoir la maladie étudiée.
Il faut cependant garder en tête ses limitations : la régression logistique suppose une relation linéaire entre les variables explicatives et le logarithme des cotes. Lorsque la réalité est beaucoup plus complexe, le modèle risque de simplifier à l’excès. Néanmoins, elle reste un outil précieux d’analyse, de communication et de comparaison dans la boîte à outils du data scientist.
📚 Références
- Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression. Wiley.