En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Logistic Regression
Définition iA

Logistic Regression

Contrairement à son nom, la régression logistique (ou Logistic Regression) n’est pas utilisée pour prédire une valeur continue, mais pour résoudre des problèmes de classification binaire : oui/non, vrai/faux, spam/pas spam.

Le principe est simple : on applique une fonction logistique (sigmoïde) à une combinaison linéaire des variables d’entrée. Cette fonction “écrase” toutes les valeurs possibles dans une plage comprise entre 0 et 1, que l’on interprète comme une probabilité.

Exemple concret

Supposons qu’on veuille prédire si un email est du spam. Les variables pourraient être : nombre de liens, présence de certains mots-clés, ou longueur du message. La régression logistique calcule un score, applique la fonction sigmoïde, et si le résultat dépasse 0,5, on classifie l’email comme spam.

Importance en IA

Cet algorithme est l’un des plus utilisés car :

  • il est facile à interpréter, contrairement aux réseaux de neurones ;
  • il est rapide à entraîner ;
  • il fournit directement une probabilité, utile pour la prise de décision.

Limites

La régression logistique fonctionne bien avec des variables linéairement séparables, mais devient insuffisante pour des relations complexes, où des algorithmes comme les forêts aléatoires ou les réseaux neuronaux prennent le relais.

En dehors de la santé et de la finance, la régression logistique est couramment appliquée dans des secteurs comme les ressources humaines (prédire le départ d’un collaborateur), le marketing (identifier les clients les plus susceptibles d’acheter), ou encore la politique publique (anticiper le risque de décrochage scolaire). Sa capacité à fournir une probabilité rend les résultats exploitables directement pour la prise de décision.

Un autre atout est sa transparence : les coefficients peuvent être transformés en odds ratios (rapports de cotes), qui montrent de manière intuitive l’impact relatif d’une variable. Par exemple, un coefficient positif important pour la variable « fumeur » dans un modèle médical signifie que le fait d’être fumeur augmente significativement la probabilité d’avoir la maladie étudiée.

Il faut cependant garder en tête ses limitations : la régression logistique suppose une relation linéaire entre les variables explicatives et le logarithme des cotes. Lorsque la réalité est beaucoup plus complexe, le modèle risque de simplifier à l’excès. Néanmoins, elle reste un outil précieux d’analyse, de communication et de comparaison dans la boîte à outils du data scientist.

📚 Références

  • Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression. Wiley.