Innovatiana's Cosmetics Retail Dataset (CRD)
Ce dataset open source regroupe des images annotées de rayons cosmétiques en magasin. Il a été conçu dans le cadre d’un projet de test en retail, avec pour objectif de structurer les données nécessaires au développement d’algorithmes d’inventaire intelligent et de détection de produits. Malgré un contexte de collaboration difficile, Innovatiana a décidé de libérer cette base afin de valoriser le travail des annotateurs et soutenir les projets d’IA dans le secteur du retail.
4,820 images annotées, environ 245,000 labels, annotations au format XML (CVAT)
Utilisation réservée à des fins de recherche et d’enseignement. Les images de produits restent la propriété de leurs titulaires respectifs. L’utilisateur doit s’assurer de la conformité légale de son usage
Description
Le dataset contient :
- 4820 frames extraits de vidéos tournées en magasin
- Environ 245000 annotations manuelles (bounding boxes, polygones)
- Jusqu’à 500 objets annotés par image
- Des informations sur l’agencement des rayons (planogrammes)
- Des données structurées en sous-ensembles pour faciliter l’exploration
Les annotations ont été réalisées avec CVAT, selon un format compatible avec les projets de Computer Vision en retail.
À quoi sert ce dataset ?
Ce jeu de données peut être utilisé pour :
- L’entraînement de modèles de détection d’objets (cosmétiques, rayonnages)
- La détection automatique de produits manquants sur les étagères
- Le suivi d’inventaire et la reconnaissance produit en magasin
- L’analyse de conformité aux planogrammes
- Le développement d’outils de monitoring visuel pour la grande distribution
Peut-on l’enrichir ou l’améliorer ?
Oui. Ce dataset étant issu d’un projet test, certaines annotations peuvent être partielles ou incohérentes. Nous recommandons :
- De nettoyer ou affiner les sous-ensembles annotés
- De croiser les données avec d’autres sources (métadonnées, catalogues produits)
- D’adapter les annotations aux nomenclatures internes ou catégories métier
- De compléter la base avec de nouvelles prises de vue ou labels métiers
📄 Un PDF d’accompagnement est disponible (innv-cosmetics-dataset-for-retail.pdf) pour indiquer les sous-ensembles validés par notre équipe qualité.
🔗 Source : Hugging Face – Innovatiana Cosmetics Dataset
Questions fréquemment posées
Le dataset est-il prêt à l’emploi pour l’entraînement ?
Partiellement. Certains sous-ensembles sont propres et utilisables, d'autres doivent être revus. Le fichier PDF fourni permet d’identifier les sections recommandées pour l'entraînement initial.
Pourquoi ce dataset a-t-il été rendu public ?
Il s'agit d’une démarche de transparence et de valorisation du travail accompli par nos équipes, dans un contexte de litige client. En le publiant, nous contribuons à l’open science et mettons en lumière les réalités de la chaîne de production de données IA.
Est-ce que les marques présentes ont validé ce dataset ?
Non. Le client initial n’était affilié à aucune marque représentée. Innovatiana ne revendique aucun droit sur les contenus visuels et agit uniquement en tant qu’annotateur technique.