Convolution
En intelligence artificielle, la convolution est une opération mathématique qui combine deux fonctions ou matrices pour produire une nouvelle représentation. Dans les réseaux de neurones convolutifs (CNN), elle consiste à faire glisser un filtre (ou noyau) sur les données d’entrée (par exemple une image) afin de détecter des motifs comme des contours, textures ou formes.
Intuition
- Chaque filtre est entraîné pour reconnaître une caractéristique particulière.
- Les couches convolutives successives permettent d’apprendre des représentations de plus en plus complexes (du pixel → aux formes simples → aux objets entiers).
Exemple visuel
Cas d'usage en Computer Vision : sur une image, un filtre « détection de bord » peut révéler uniquement les contours en accentuant les contrastes.
Un aspect essentiel de la convolution est le partage de paramètres. Contrairement aux couches entièrement connectées où chaque poids est distinct, les couches convolutionnelles réutilisent le même filtre sur toute l’entrée. Cela réduit considérablement le nombre de paramètres, rendant les CNN plus efficaces et moins sujets au surapprentissage que les architectures denses.
Les opérations de pooling accompagnent souvent les convolutions pour condenser davantage l’information. Le max pooling, par exemple, sélectionne la valeur la plus forte dans une région, créant une représentation plus abstraite et invariante aux petites translations. Cette propriété est cruciale en classification d’images, où l’important est de détecter la présence d’un objet plutôt que sa position exacte.
La convolution ne se limite pas aux images. En traitement du langage naturel, les convolutions 1-D peuvent capturer des motifs locaux de mots, comme des n-grammes, et améliorer la classification de textes ou l’analyse de sentiments. De même, en traitement audio, les couches convolutionnelles détectent des composantes fréquentielles et des structures temporelles, soutenant la reconnaissance vocale ou la classification musicale.
Enfin, la recherche moderne a élargi la portée des convolutions. Les convolutions dilatées augmentent le champ réceptif sans coût supplémentaire, tandis que les convolutions séparables en profondeur (utilisées dans MobileNet) permettent aux CNN de fonctionner efficacement sur des appareils mobiles. Ces avancées montrent que le principe fondamental de la convolution reste au cœur de l’innovation, en s’adaptant aux contraintes pratiques de l’intelligence artificielle.
Référence
- LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521(7553), 436–444.