En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Glossaire
Dataset
Définition iA

Dataset

Un dataset (ou jeu de données) est une collection structurée d’informations utilisée dans le cadre de l’apprentissage automatique et de l’intelligence artificielle. Les datasets servent à entraîner, valider et tester des modèles afin d’évaluer leur performance et leur capacité de généralisation.

Caractéristiques principales

  • Format : tableaux, images, vidéos, textes, signaux audio, séries temporelles, graphes.
  • Étiquetage de données : certains datasets contiennent des labels (supervisés), d’autres non (non supervisés).
  • Qualité : la fiabilité du modèle dépend fortement de la qualité et de la diversité des données.

Exemples

  • MNIST : base de données d’images manuscrites pour la classification de chiffres.
  • ImageNet : millions d’images annotées pour la vision par ordinateur.
  • COCO (Common Objects in Context) : images avec annotations riches pour la détection et la segmentation.
  • Wikipedia Dumps : utilisés pour l’entraînement de modèles NLP.

Applications

  • Santé : analyse d’imagerie médicale.
  • Finance : détection de fraudes.
  • Automobile : données de capteurs pour véhicules autonomes.

Un jeu de données est bien plus qu’une simple collection d’exemples : c’est la mémoire du monde capturée pour un usage algorithmique. Chaque ligne, chaque image ou chaque fragment de texte devient un signal qui guide l’apprentissage d’un modèle.

La constitution d’un jeu de données soulève de nombreux défis. Outre la taille et la diversité, il faut prendre en compte la qualité des annotations. Une étiquette erronée peut suffire à biaiser l’entraînement, surtout si le jeu de données est petit. C’est pourquoi on met souvent en place des protocoles de validation croisée des annotations (plusieurs annotateurs, règles précises, arbitrage).

Enfin, les jeux de données soulèvent aussi des questions éthiques et juridiques : respect de la vie privée, biais de représentation, licences d’utilisation. Dans le domaine médical par exemple, l’accès aux données nécessite des précautions de sécurité et de gouvernance renforcées.

Références

  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.