Flickr30k Image‑Caption Dataset
Jeu de données multilingue de plus de 30 000 images, chacune munie de 5 légendes rédigées par des annotateurs, pour l’entraînement de modèles de vision et langage.
≈30 000 images + annotations CSV (captions), ~4.43 Go
CC0 : domaine public
Description
Le dataset Flickr30k fournit plus de 30 000 images accompagnées chacune de 5 légendes humaines. Les images sont hébergées sur Flickr et les annotations sont disponibles sous forme CSV. Idéal pour entraîner et évaluer des modèles de génération de légendes, VQA ou vision-langage.
À quoi sert ce dataset ?
- Génération de légendes d’images (image captioning)
- Vision-language modeling et recherche image-texte
- Visual Question Answering (VQA) ou retrieval multimodal
Peut-on l’enrichir ou l’améliorer ?
Oui, en téléchargeant les images via leurs URLs, on peut créer des ensembles locaux. Il est possible d’ajouter des annotations visuelles (objets, régions) ou de retraduire les légendes dans d’autres langues.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en IA multimodale
- Étudiants en VQA
- Ingénieurs IA spécialisés en vision-langage
🔧 Outils compatibles
- Hugging Face Datasets
- PyTorch
- TensorFlow
- Deep Lake
- CLIP
- BLIP
- ViLT
💡 Astuce
Télécharge les images en batch et conserve un snapshot local pour éviter toute disparition par Flickr.
Questions fréquemment posées
Les images sont-elles incluses dans le dataset ?
Oui — elles sont fournies dans la version "flickr30k-images" (~4.43 Go) sur Kaggle.
Puis-je utiliser ce dataset commercialement sans attribution ?
Oui, la licence CC0 permet un usage commercial sans obligation d’attribution.
Est-il possible de réencoder les légendes dans d’autres langues ?
Oui, les champs captions.csv peuvent être traduits pour créer des versions multilingues améliorant la performance du modèle.