Flickr Image Dataset
Ensemble de données multimodal contenant des images Flickr avec légendes, entités annotées et zones de délimitation, pour apprentissage visuel et linguistique.
31 800 images, 158 000 légendes, 276 000 bounding boxes — JPEG, CSV
CC0: Public Domain
Description
Le dataset Flickr Image Dataset est une ressource multimodale basée sur le jeu de données Flickr30k. Il associe 31 800 images à 158 000 légendes textuelles, enrichies par plus de 244 000 chaînes de coréférences et 276 000 bounding boxes annotées manuellement. Il s’agit d’un jeu de référence pour les tâches de génération de descriptions d’image, d’alignement image/texte, et de grounding visuel.
À quoi sert ce dataset ?
- Entraîner des modèles de génération de légendes d’image (image captioning)
- Aligner entités textuelles et régions visuelles dans une même image (grounded NLP)
- Tester des modèles multimodaux sur la compréhension conjointe image + langage
Peut-on l’enrichir ou l’améliorer ?
Oui. Il est possible d’ajouter des annotations supplémentaires (relationnelles, linguistiques ou visuelles), d’introduire d’autres langues dans les légendes, ou d’appliquer des techniques de détection automatique pour comparer avec les annotations manuelles. Il peut aussi être utilisé pour pré-entraîner des architectures vision-language plus récentes.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en IA multimodale
- Développeurs d’assistants visuels
- Étudiants en vision/language
🔧 Outils compatibles
- Hugging Face Transformers
- CLIP
- BLIP
- Detectron2
- SpaCy
- OpenCV
💡 Astuce
Pour l’entraînement, regroupez les entités de même type et appliquez des embeddings croisés entre bounding boxes et segments textuels.
Questions fréquemment posées
Peut-on utiliser les images et annotations pour un projet commercial ?
Oui, le dataset est sous licence CC0, ce qui autorise une utilisation commerciale sans restriction.
Est-ce adapté pour l’entraînement de modèles CLIP ou BLIP ?
Tout à fait, le dataset est riche en paires image-texte et annotations, ce qui le rend idéal pour ces architectures multimodales.
Les légendes sont-elles en plusieurs langues ?
Non, toutes les descriptions sont en anglais. Toutefois, il est possible de générer des traductions automatiques pour élargir la couverture linguistique.