En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Chinese Sentiment Analyze
Texte

Chinese Sentiment Analyze

Dataset chinois combinant des critiques issues du e-commerce et des publications sociales (Weibo), utile pour la détection automatique de sentiments (positif, neutre, négatif).

Télécharger le dataset
Taille

Données textuelles en chinois (reviews + réseaux sociaux), format JSON/CSV, 182762 exemples

Licence

MIT

Description

Chinese Sentiment Analyze est un jeu de données fusionnant deux sources principales : des critiques de produits (Shopping Reviews) et des messages de la plateforme Weibo. Il est conçu pour l’analyse des sentiments en chinois, en permettant la classification en catégories telles que positif, neutre ou négatif.

À quoi sert ce dataset ?

Peut-on l’enrichir ou l’améliorer ?

Oui. On peut compléter ce corpus avec d’autres domaines d’opinion (politique, films, services publics) ou affiner les étiquettes de sentiments (niveau d’intensité, émotion spécifique). Une traduction parallèle ou une segmentation par thème renforcerait aussi l’intérêt linguistique et applicatif du dataset.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐☆☆ (Données simples à charger via Hugging Face)
🧼Besoin de nettoyage ⭐⭐⭐☆☆ (Faible — dépend des splits, mais données généralement prêtes à l’emploi)
🏷️Richesse des annotations ⭐⭐⭐☆☆ (Sentiments étiquetés – binaire ou trinaire selon les versions)
📜Licence commerciale ✅ Oui (MIT)
👨‍💻Idéal pour les débutants 👩‍💻 Oui — idéal pour s’initier à l’analyse de sentiment
🔁Réutilisable en fine-tuning 🔥 Parfait pour ajuster un classificateur BERT chinois
🌍Diversité culturelle 🌏 Bonne — données issues de plateformes chinoises authentiques

🧠 Recommandé pour

  • Projets de NLP chinois
  • Analyse d'opinion sur réseaux sociaux
  • Modèles multilingues

🔧 Outils compatibles

  • PyTorch
  • Hugging Face Transformers
  • SpaCy
  • FastText

💡 Astuce

Si tu veux combiner ce corpus avec des données d’autres langues, veille à équilibrer les proportions pour éviter les biais de langue lors du fine-tuning.

Questions fréquemment posées

Combien d’étiquettes de sentiment sont disponibles dans ce dataset ?

Cela dépend de la version : certaines annotations sont binaires (positif/négatif), d’autres incluent une classe neutre pour une classification trinaire.

Est-ce que ce dataset peut être utilisé pour des textes longs ?

En majorité, les textes sont courts à moyens (reviews, posts), mais le dataset peut être complété avec des données plus longues si besoin.

Peut-on l’utiliser pour entraîner un modèle commercial ?

Oui, la licence MIT permet une utilisation commerciale sans restriction, y compris dans des produits distribués.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.