Feedforward Neural Network
Un réseau neuronal feedforward est une architecture de réseau dans laquelle l’information circule uniquement dans une direction : des neurones d’entrée vers les neurones de sortie, en passant par des couches cachées. Contrairement aux réseaux récurrents (RNN), il n’existe pas de rétroaction ni de mémoire interne. C’est l’une des formes les plus simples et historiques des réseaux neuronaux artificiels.
Contexte et origine
Introduits dans les années 1950–60, les réseaux feedforward constituent le socle des modèles modernes. Le perceptron, développé par Frank Rosenblatt (1958), en est une version rudimentaire. Ces architectures ont ensuite évolué avec l’ajout de couches cachées (perceptrons multicouches ou MLP), permettant de traiter des relations non linéaires complexes.
Applications pratiques
- Reconnaissance de formes simples : chiffres manuscrits (MNIST).
- Prédiction tabulaire : relations entrée-sortie dans des bases de données structurées.
- Systèmes de recommandation : premières générations avant les architectures plus sophistiquées.
Avantages et limites
- Avantage : simplicité de mise en œuvre et efficacité pour des tâches basiques.
- Limite : incapacité à gérer des séquences ou dépendances temporelles (contrairement aux RNN/LSTM).
- Aujourd’hui, ils servent surtout de briques de base dans des architectures plus complexes.
Les réseaux de neurones feedforward incarnent la forme la plus simple et directe des architectures neuronales : les données circulent d’entrée en sortie sans retour en arrière. Cette simplicité en a fait un modèle pionnier et une référence pédagogique pour comprendre les bases de l’apprentissage profond.
Historiquement, l’introduction des perceptrons multicouches (MLP) a marqué une avancée majeure : grâce aux fonctions d’activation non linéaires, ces réseaux ont pu dépasser les limites du perceptron simple et résoudre des problèmes auparavant inaccessibles.
Aujourd’hui, bien que supplantés par des architectures plus sophistiquées (RNN, CNN, Transformers), les FFNN restent pertinents dans des contextes spécifiques : analyse de données tabulaires, modélisation de relations complexes mais statiques, ou encore comme briques élémentaires intégrées dans des modèles plus larges. Leur force est la clarté conceptuelle, mais leur faiblesse réside dans l’absence de mémoire temporelle.
Références
- Goodfellow, Bengio & Courville, Deep Learning (MIT Press, 2016).