Chinese Sentiment Analyze

Dataset chinois combinant des critiques issues du e-commerce et des publications sociales (Weibo), utile pour la détection automatique de sentiments (positif, neutre, négatif).

Télécharger le dataset

Taille

Données textuelles en chinois (reviews + réseaux sociaux), format JSON/CSV, 182762 exemples

Licence

MIT

Description

‍

Chinese Sentiment Analyze est un jeu de données fusionnant deux sources principales : des critiques de produits (Shopping Reviews) et des messages de la plateforme Weibo. Il est conçu pour l’analyse des sentiments en chinois, en permettant la classification en catégories telles que positif, neutre ou négatif.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de NLP pour la classification de sentiments en mandarin
Développer des outils d’analyse d’opinion pour des applications commerciales ou sociales
Tester la robustesse des modèles multilingues sur des textes chinois du quotidien

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. On peut compléter ce corpus avec d’autres domaines d’opinion (politique, films, services publics) ou affiner les étiquettes de sentiments (niveau d’intensité, émotion spécifique). Une traduction parallèle ou une segmentation par thème renforcerait aussi l’intérêt linguistique et applicatif du dataset.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐☆☆ (Données simples à charger via Hugging Face)
🧼Besoin de nettoyage	⭐⭐⭐☆☆ (Faible — dépend des splits, mais données généralement prêtes à l’emploi)
🏷️Richesse des annotations	⭐⭐⭐☆☆ (Sentiments étiquetés – binaire ou trinaire selon les versions)
📜Licence commerciale	✅ Oui (MIT)
👨‍💻Idéal pour les débutants	👩‍💻 Oui — idéal pour s’initier à l’analyse de sentiment
🔁Réutilisable en fine-tuning	🔥 Parfait pour ajuster un classificateur BERT chinois
🌍Diversité culturelle	🌏 Bonne — données issues de plateformes chinoises authentiques

‍

🧠 Recommandé pour

Projets de NLP chinois
Analyse d'opinion sur réseaux sociaux
Modèles multilingues

‍

🔧 Outils compatibles

PyTorch
Hugging Face Transformers
SpaCy
FastText

‍

💡 Astuce

Si tu veux combiner ce corpus avec des données d’autres langues, veille à équilibrer les proportions pour éviter les biais de langue lors du fine-tuning.

Questions fréquemment posées

Combien d’étiquettes de sentiment sont disponibles dans ce dataset ?

Cela dépend de la version : certaines annotations sont binaires (positif/négatif), d’autres incluent une classe neutre pour une classification trinaire.

Est-ce que ce dataset peut être utilisé pour des textes longs ?

En majorité, les textes sont courts à moyens (reviews, posts), mais le dataset peut être complété avec des données plus longues si besoin.

Peut-on l’utiliser pour entraîner un modèle commercial ?

Oui, la licence MIT permet une utilisation commerciale sans restriction, y compris dans des produits distribués.

Datasets similaires

Texte

Quandl Stock Market Data

Multimodal

VLMS Are Blind

Image

TextOCR : Extraction de texte sur images naturelles