En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Flickr Image Dataset
Multimodal

Flickr Image Dataset

Ensemble de données multimodal contenant des images Flickr avec légendes, entités annotées et zones de délimitation, pour apprentissage visuel et linguistique.

Télécharger le dataset
Taille

31 800 images, 158 000 légendes, 276 000 bounding boxes — JPEG, CSV

Licence

CC0: Public Domain

Description

Le dataset Flickr Image Dataset est une ressource multimodale basée sur le jeu de données Flickr30k. Il associe 31 800 images à 158 000 légendes textuelles, enrichies par plus de 244 000 chaînes de coréférences et 276 000 bounding boxes annotées manuellement. Il s’agit d’un jeu de référence pour les tâches de génération de descriptions d’image, d’alignement image/texte, et de grounding visuel.

À quoi sert ce dataset ?

  • Entraîner des modèles de génération de légendes d’image (image captioning)
  • Aligner entités textuelles et régions visuelles dans une même image (grounded NLP)
  • Tester des modèles multimodaux sur la compréhension conjointe image + langage

Peut-on l’enrichir ou l’améliorer ?

Oui. Il est possible d’ajouter des annotations supplémentaires (relationnelles, linguistiques ou visuelles), d’introduire d’autres langues dans les légendes, ou d’appliquer des techniques de détection automatique pour comparer avec les annotations manuelles. Il peut aussi être utilisé pour pré-entraîner des architectures vision-language plus récentes.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐☆☆ (Structuré mais nécessite traitement d’image + texte)
🧼Besoin de nettoyage ⭐⭐☆☆☆ (Faible à modéré selon la tâche ciblée)
🏷️Richesse des annotations ⭐⭐⭐⭐☆ (Excellente : légendes + entités + bounding boxes + coréférences)
📜Licence commerciale ✅ Oui (CC0)
👨‍💻Idéal pour les débutants 👍 Moyen – connaissances en multimodalité recommandées
🔁Réutilisable en fine-tuning 🔥 Excellente base pour CLIP, BLIP, Flamingo, etc.
🌍Diversité culturelle 🌍 Moyenne : principalement en anglais, mais contenu varié

🧠 Recommandé pour

  • Chercheurs en IA multimodale
  • Développeurs d’assistants visuels
  • Étudiants en vision/language

🔧 Outils compatibles

  • Hugging Face Transformers
  • CLIP
  • BLIP
  • Detectron2
  • SpaCy
  • OpenCV

💡 Astuce

Pour l’entraînement, regroupez les entités de même type et appliquez des embeddings croisés entre bounding boxes et segments textuels.

Questions fréquemment posées

Peut-on utiliser les images et annotations pour un projet commercial ?

Oui, le dataset est sous licence CC0, ce qui autorise une utilisation commerciale sans restriction.

Est-ce adapté pour l’entraînement de modèles CLIP ou BLIP ?

Tout à fait, le dataset est riche en paires image-texte et annotations, ce qui le rend idéal pour ces architectures multimodales.

Les légendes sont-elles en plusieurs langues ?

Non, toutes les descriptions sont en anglais. Toutefois, il est possible de générer des traductions automatiques pour élargir la couverture linguistique.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.