FreshRetailNet-50K – Prédiction de demande dans le retail alimentaire
Données massives de vente au détail alimentaire sur 50 000 références avec suivi des ruptures de stock, météo, promotions et plus.
4,85 millions d’exemples horaires, format tabulaire structuré (CSV/Parquet)
CC BY 4.0
Description
FreshRetailNet-50K est un benchmark unique pour la prédiction de la demande dans le domaine du retail alimentaire. Il contient 50 000 séries temporelles détaillées sur 90 jours, couvrant les ventes horaires de produits périssables dans 898 magasins répartis sur 18 grandes villes. Le dataset inclut également des informations sur les ruptures de stock, les promotions, les conditions météorologiques et les jours fériés.
À quoi sert ce dataset ?
- Améliorer les modèles de prévision de la demande dans le secteur du retail alimentaire
- Tester des algorithmes de détection de stock-out et de demande latente
- Entraîner des modèles de séries temporelles contextuelles à grande échelle
Peut-on l’enrichir ou l’améliorer ?
Oui, ce corpus peut être enrichi avec des données de coûts logistiques, des marges ou des données externes (événements, tendances régionales). Il est également possible de l’annoter plus finement pour affiner la détection de ruptures masquées ou ajouter des scores de confiance aux prédictions de vente.
🔎 En résumé
🧠 Recommandé pour
- Data scientists en supply chain
- Équipes de pricing et prévision
- Chercheurs en séries temporelles
🔧 Outils compatibles
- PyTorch Forecasting
- GluonTS
- Prophet
- LightGBM
- XGBoost
💡 Astuce
Pour de meilleurs résultats, agréger les données horaires par créneaux fixes (ex : matin / après-midi) selon les produits
Questions fréquemment posées
Ce dataset couvre-t-il plusieurs types de produits ?
Oui, il contient plus de 860 références de produits périssables, classés par catégories et sous-catégories.
Peut-on identifier les effets des promotions dans les données ?
Absolument. Le dataset inclut un indicateur de promotion ainsi qu’un taux de remise pour chaque entrée.
Est-il utilisable pour des modèles temps réel ?
Oui, chaque ligne est horodatée et peut servir à des simulations ou déploiements en flux continu pour des modèles temps réel.




