Gaussian Process
Un processus gaussien (PG) est une méthode probabiliste en apprentissage automatique utilisée pour modéliser et prédire des fonctions. Il repose sur l’hypothèse que tout ensemble fini de points de données peut être décrit par une distribution gaussienne multivariée. Contrairement à un modèle classique qui donne une prédiction unique, un PG fournit une distribution de probabilité sur les valeurs possibles, ce qui permet d’estimer l’incertitude de chaque prédiction.
Applications
- Régression bayésienne : modélisation de relations complexes entre variables.
- Optimisation bayésienne : recherche d’hyperparamètres optimaux avec un nombre limité d’évaluations.
- Géostatistique (krigeage) : prévisions spatiales, par exemple en géologie ou en météorologie.
Avantages
- Fournit naturellement une mesure d’incertitude.
- Flexible pour modéliser des relations non linéaires.
Limites
- Coût de calcul élevé : la complexité est cubique par rapport au nombre d’exemples.
- Peu adapté aux très grands ensembles de données sans approximations (méthodes sparse GPs).
Les processus gaussiens (PG) sont des modèles non paramétriques, ce qui signifie qu’ils n’imposent pas un nombre fixe de paramètres et s’adaptent naturellement à la complexité des données. Cette flexibilité leur permet de modéliser des relations hautement non linéaires tout en fournissant une estimation de l’incertitude associée à chaque prédiction. Le principe repose sur le fait que toute collection finie de valeurs de fonction suit une distribution gaussienne conjointe définie par une fonction de moyenne et une fonction de covariance (kernel).
Le choix du noyau (kernel) est déterminant car il encode les hypothèses structurelles sur les données : régularité, périodicité, corrélation spatiale, etc. Parmi les noyaux les plus utilisés figurent la fonction de base radiale (RBF), les noyaux de Matérn et les noyaux périodiques, chacun adapté à un type de signal particulier (lisse, rugueux, ou cyclique). Des combinaisons de noyaux permettent souvent de modéliser des phénomènes complexes de manière plus réaliste.
Malgré leur élégance théorique et leur forte interprétabilité, les PG présentent des limites pratiques. Leur complexité de calcul est cubique par rapport au nombre d’exemples, car elle nécessite des opérations sur des matrices de covariance de taille n × n. Pour résoudre ce problème d’évolutivité, de nombreuses méthodes ont été proposées : approximations clairsemées, points inducteurs ou inférence variationnelle, qui étendent l’usage des PG à des ensembles massifs de données.
En dehors de la régression, les processus gaussiens sont également employés en classification, en prévision de séries temporelles et même en apprentissage par renforcement. Par exemple, ils sont largement utilisés en optimisation bayésienne pour guider l’exploration, ou comme priors dans l’apprentissage profond probabiliste. Leur polyvalence et leur capacité à quantifier l’incertitude en font un outil incontournable en apprentissage automatique probabiliste.
Référence : Rasmussen & Williams, Gaussian Processes for Machine Learning (MIT Press, 2006).