En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Flickr30k Image‑Caption Dataset
Multimodal

Flickr30k Image‑Caption Dataset

Jeu de données multilingue de plus de 30 000 images, chacune munie de 5 légendes rédigées par des annotateurs, pour l’entraînement de modèles de vision et langage.

Télécharger le dataset
Taille

≈30 000 images + annotations CSV (captions), ~4.43 Go

Licence

CC0 : domaine public

Description

Le dataset Flickr30k fournit plus de 30 000 images accompagnées chacune de 5 légendes humaines. Les images sont hébergées sur Flickr et les annotations sont disponibles sous forme CSV. Idéal pour entraîner et évaluer des modèles de génération de légendes, VQA ou vision-langage.

À quoi sert ce dataset ?

  • Génération de légendes d’images (image captioning)
  • Vision-language modeling et recherche image-texte
  • Visual Question Answering (VQA) ou retrieval multimodal

Peut-on l’enrichir ou l’améliorer ?

Oui, en téléchargeant les images via leurs URLs, on peut créer des ensembles locaux. Il est possible d’ajouter des annotations visuelles (objets, régions) ou de retraduire les légendes dans d’autres langues.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Annotations prêtes, téléchargement requis pour les images)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible – CSV bien formaté ; gestion des URLs à prévoir)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (5 légendes par image, très riche)
📜 Licence commerciale✅ CC0 – usage commercial autorisé
👨‍💻 Idéal pour les débutants✅ Oui – base classique pour multimodalité Vietnam
🔁 Réutilisable en fine-tuning🖼️ Excellent pour vision-language fine‑tuning
🌍 Diversité culturelle🌐 Large diversité de scènes humaines quotidiennes

🧠 Recommandé pour

  • Chercheurs en IA multimodale
  • Étudiants en VQA
  • Ingénieurs IA spécialisés en vision-langage

🔧 Outils compatibles

  • Hugging Face Datasets
  • PyTorch
  • TensorFlow
  • Deep Lake
  • CLIP
  • BLIP
  • ViLT

💡 Astuce

Télécharge les images en batch et conserve un snapshot local pour éviter toute disparition par Flickr.

Questions fréquemment posées

Les images sont-elles incluses dans le dataset ?

Oui — elles sont fournies dans la version "flickr30k-images" (~4.43 Go) sur Kaggle.

Puis-je utiliser ce dataset commercialement sans attribution ?

Oui, la licence CC0 permet un usage commercial sans obligation d’attribution.

Est-il possible de réencoder les légendes dans d’autres langues ?

Oui, les champs captions.csv peuvent être traduits pour créer des versions multilingues améliorant la performance du modèle.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.