Twitter Sentiment Analysis Dataset
Le dataset Twitter Sentiment Analysis est une base de données massivement utilisée en NLP pour les tâches d’analyse d’opinions. Il contient plus d’un million de tweets annotés selon leur tonalité émotionnelle : positive, négative ou neutre.
Environ 1,6 million de tweets annotés, au format CSV
Usage soumis aux conditions d’utilisation de l’API Twitter. Vérification requise pour les usages commerciaux
Description
Le dataset Twitter Sentiment comprend :
- 1,6 million de tweets textuels annotés en anglais
- Trois classes : positif, négatif, neutre
- Un format CSV facilement exploitable dans les pipelines NLP
- Des métadonnées optionnelles (selon les versions) : ID, date, pseudo utilisateur, etc.
À quoi sert ce dataset ?
Ce dataset est couramment utilisé pour :
- L’entraînement de modèles de classification de sentiments sur des textes courts
- L’analyse de tendances et opinions sur les réseaux sociaux
- La surveillance de la réputation en ligne (brand monitoring)
- L’amélioration de systèmes de modération, recommandation ou synthèse d’avis
Peut-on l’enrichir ou l’améliorer ?
Oui, malgré sa taille, ce dataset peut être enrichi :
- Ajout de sous-catégories d’émotions (joie, colère, surprise, etc.)
- Intégration de données contextuelles (hashtags, emojis, images)
- Création de filtres thématiques (politique, sport, santé…)
- Traduction ou adaptation pour des analyses multilingues
🔗 Source : Twitter Sentiment Dataset
Questions fréquemment posées
Les tweets du dataset sont-ils toujours disponibles ?
Pas nécessairement. Certains peuvent avoir été supprimés ou rendus privés. Il est recommandé de revérifier leur disponibilité avant toute utilisation.
Peut-on utiliser ce dataset dans un contexte commercial ?
Cela dépend des conditions d’utilisation de l’API Twitter. Il est impératif de consulter la politique de la plateforme avant une exploitation commerciale.
Existe-t-il des alternatives plus récentes ?
Oui, d’autres datasets comme TweetEval ou Sentiment140 offrent des variantes, parfois enrichies ou plus récentes, pour des usages similaires.