Reddit Memes Dataset

Dataset composé de plus de 3300 images de mèmes Reddit, incluant les URL des images, le nombre de votes positifs et négatifs, et d’autres métadonnées. Collecté pour des projets de vision par ordinateur et analyse de popularité.

Télécharger le dataset

Taille

3327 fichiers image (URL des images + métadonnées JSON associées)

Licence

CC0: Public Domain

Description

‍

Le dataset Reddit Memes Dataset contient 3327 images de mèmes issues de Reddit, accompagnées de métadonnées telles que l’ID du post, le nombre de votes positifs et négatifs, ainsi que d’autres informations pertinentes. Ce corpus est un bon point de départ pour des projets de vision par ordinateur liés à l’analyse de contenu humoristique et viralité.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de vision par ordinateur pour la classification d’images humoristiques
Analyser la popularité et le score d’engagement des mèmes sur les réseaux sociaux
Développer des systèmes de recommandation ou de modération de contenus visuels

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, on peut ajouter des annotations manuelles sur le contenu des mèmes, comme les catégories humoristiques, le type de mème, ou le contexte culturel. Il est aussi possible d’intégrer des données textuelles extraites des images via OCR pour des analyses multimodales.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐✩ (Images accessibles via URL, facile à intégrer)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible : métadonnées structurées)
🏷️ Richesse des annotations	⭐⭐✩✩✩ (Basique : métadonnées d’engagement uniquement)
📜 Licence commerciale	✅ Oui (CC0 Public Domain)
👨‍💻 Idéal pour les débutants	🌟 Oui, parfait pour projets d’initiation en vision par ordinateur
🔁 Réutilisable en fine-tuning	🎯 Adapté pour classification et scoring d’images
🌍 Diversité culturelle	⚠️ Culture Internet anglophone principalement