Feature Engineering

Le feature engineering (ou ingénierie des caractéristiques) désigne l’ensemble des techniques permettant de transformer des données brutes en caractéristiques exploitables par un modèle de Machine Learning. Les "features" représentent des variables d’entrée décrivant les phénomènes étudiés : elles peuvent être extraites, combinées ou créées à partir de sources existantes.

‍

Pourquoi c’est crucial
La qualité des features détermine souvent la qualité du modèle. Même avec des algorithmes avancés, des données mal préparées ou des caractéristiques peu pertinentes conduisent à des performances limitées. Dans la pratique, un bon feature engineering peut faire plus pour améliorer les résultats qu’un changement d’algorithme.

‍

Exemples concrets

En finance, convertir une suite de transactions brutes en variables comme “dépenses moyennes par semaine” ou “variabilité des montants” permet d’entraîner de bons modèles de détection de fraude.
En santé, transformer des signaux bruts (ECG, IRM) en caractéristiques comme la fréquence cardiaque ou la variance d’un signal aide à diagnostiquer certaines pathologies.
En NLP (traitement du langage naturel), on peut passer du texte brut à des vecteurs TF-IDF, des embeddings ou des scores de sentiment.

‍

Défis

Risque d’overfitting si trop de variables sont créées.
Temps et expertise nécessaires pour identifier les bons signaux.
Automatisation encore limitée, même si l’AutoML propose des solutions d’"automated feature engineering".

‍

On dit souvent que le choix des variables explique plus de la moitié du succès d’un modèle. Un algorithme, aussi puissant soit-il, ne peut compenser des données mal préparées ou des variables mal construites. L’ingénierie des features est donc à la croisée de la technique et de l’expertise métier.

‍

Concrètement, cela inclut des opérations comme la normalisation des données, la création de variables dérivées (par exemple, l’âge d’un client calculé à partir de sa date de naissance), ou encore la détection de variables redondantes qui risquent d’introduire du bruit.

‍

Avec l’essor de l’apprentissage profond, certaines étapes sont automatisées (apprentissage de représentations latentes), mais l’humain reste crucial pour orienter le modèle. En finance, par exemple, traduire une série brute de transactions en indicateurs de risque pertinents exige une compréhension fine du domaine que les réseaux de neurones ne possèdent pas d’emblée.

‍

Références

Géron, A. Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (O’Reilly, 2022).