Flickr30k Image‑Caption Dataset

Jeu de données multilingue de plus de 30 000 images, chacune munie de 5 légendes rédigées par des annotateurs, pour l’entraînement de modèles de vision et langage.

Télécharger le dataset

Taille

≈30 000 images + annotations CSV (captions), ~4.43 Go

Licence

CC0 : domaine public

Description

‍

Le dataset Flickr30k fournit plus de 30 000 images accompagnées chacune de 5 légendes humaines. Les images sont hébergées sur Flickr et les annotations sont disponibles sous forme CSV. Idéal pour entraîner et évaluer des modèles de génération de légendes, VQA ou vision-langage.

‍

À quoi sert ce dataset ?

‍

Génération de légendes d’images (image captioning)
Vision-language modeling et recherche image-texte
Visual Question Answering (VQA) ou retrieval multimodal

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, en téléchargeant les images via leurs URLs, on peut créer des ensembles locaux. Il est possible d’ajouter des annotations visuelles (objets, régions) ou de retraduire les légendes dans d’autres langues.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (Annotations prêtes, téléchargement requis pour les images)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible – CSV bien formaté ; gestion des URLs à prévoir)
🏷️ Richesse des annotations	⭐⭐⭐⭐⭐ (5 légendes par image, très riche)
📜 Licence commerciale	✅ CC0 – usage commercial autorisé
👨‍💻 Idéal pour les débutants	✅ Oui – base classique pour multimodalité Vietnam
🔁 Réutilisable en fine-tuning	🖼️ Excellent pour vision-language fine‑tuning
🌍 Diversité culturelle	🌐 Large diversité de scènes humaines quotidiennes