Chinese Sentiment Analyze
Dataset chinois combinant des critiques issues du e-commerce et des publications sociales (Weibo), utile pour la détection automatique de sentiments (positif, neutre, négatif).
Données textuelles en chinois (reviews + réseaux sociaux), format JSON/CSV, 182762 exemples
MIT
Description
Chinese Sentiment Analyze est un jeu de données fusionnant deux sources principales : des critiques de produits (Shopping Reviews) et des messages de la plateforme Weibo. Il est conçu pour l’analyse des sentiments en chinois, en permettant la classification en catégories telles que positif, neutre ou négatif.
À quoi sert ce dataset ?
- Entraîner des modèles de NLP pour la classification de sentiments en mandarin
- Développer des outils d’analyse d’opinion pour des applications commerciales ou sociales
- Tester la robustesse des modèles multilingues sur des textes chinois du quotidien
Peut-on l’enrichir ou l’améliorer ?
Oui. On peut compléter ce corpus avec d’autres domaines d’opinion (politique, films, services publics) ou affiner les étiquettes de sentiments (niveau d’intensité, émotion spécifique). Une traduction parallèle ou une segmentation par thème renforcerait aussi l’intérêt linguistique et applicatif du dataset.
🔎 En résumé
🧠 Recommandé pour
- Projets de NLP chinois
- Analyse d'opinion sur réseaux sociaux
- Modèles multilingues
🔧 Outils compatibles
- PyTorch
- Hugging Face Transformers
- SpaCy
- FastText
💡 Astuce
Si tu veux combiner ce corpus avec des données d’autres langues, veille à équilibrer les proportions pour éviter les biais de langue lors du fine-tuning.
Questions fréquemment posées
Combien d’étiquettes de sentiment sont disponibles dans ce dataset ?
Cela dépend de la version : certaines annotations sont binaires (positif/négatif), d’autres incluent une classe neutre pour une classification trinaire.
Est-ce que ce dataset peut être utilisé pour des textes longs ?
En majorité, les textes sont courts à moyens (reviews, posts), mais le dataset peut être complété avec des données plus longues si besoin.
Peut-on l’utiliser pour entraîner un modèle commercial ?
Oui, la licence MIT permet une utilisation commerciale sans restriction, y compris dans des produits distribués.