Twitter Sentiment Analysis Dataset

Le dataset Twitter Sentiment Analysis est une base de données massivement utilisée en NLP pour les tâches d’analyse d’opinions. Il contient plus d’un million de tweets annotés selon leur tonalité émotionnelle : positive, négative ou neutre.

Télécharger le dataset

Taille

Environ 1,6 million de tweets annotés, au format CSV

Licence

Usage soumis aux conditions d’utilisation de l’API Twitter. Vérification requise pour les usages commerciaux

Description

‍
Le dataset Twitter Sentiment comprend :

1,6 million de tweets textuels annotés en anglais
Trois classes : positif, négatif, neutre
Un format CSV facilement exploitable dans les pipelines NLP
Des métadonnées optionnelles (selon les versions) : ID, date, pseudo utilisateur, etc.

‍

À quoi sert ce dataset ?

‍
Ce dataset est couramment utilisé pour :

L’entraînement de modèles de classification de sentiments sur des textes courts
L’analyse de tendances et opinions sur les réseaux sociaux
La surveillance de la réputation en ligne (brand monitoring)
L’amélioration de systèmes de modération, recommandation ou synthèse d’avis

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, malgré sa taille, ce dataset peut être enrichi :

Ajout de sous-catégories d’émotions (joie, colère, surprise, etc.)
Intégration de données contextuelles (hashtags, emojis, images)
Création de filtres thématiques (politique, sport, santé…)
Traduction ou adaptation pour des analyses multilingues

‍

🔗 Source : Twitter Sentiment Dataset

‍

Questions fréquemment posées

Les tweets du dataset sont-ils toujours disponibles ?

Pas nécessairement. Certains peuvent avoir été supprimés ou rendus privés. Il est recommandé de revérifier leur disponibilité avant toute utilisation.

Peut-on utiliser ce dataset dans un contexte commercial ?

Cela dépend des conditions d’utilisation de l’API Twitter. Il est impératif de consulter la politique de la plateforme avant une exploitation commerciale.

Existe-t-il des alternatives plus récentes ?

Oui, d’autres datasets comme TweetEval ou Sentiment140 offrent des variantes, parfois enrichies ou plus récentes, pour des usages similaires.

Datasets similaires

Image

COCO Dataset : Common Objects in Context

Image

Ships in Satellite Imagery

Medical

OASIS (Open Access Series of Imaging Studies)