Chinese Sentiment Analyze

Conjunto de datos chino que combina reseñas de publicaciones sociales y de comercio electrónico (Weibo), útil para la detección automática de sentimientos (positivos, neutrales, negativos).

Obtén el dataset

Tamaño

Datos de texto en chino (reseñas y redes sociales), formato JSON/CSV, 182762 ejemplos

Licencia

MIT

Descripción

‍

Chinese Sentiment Analyze es un conjunto de datos que combina dos fuentes principales: reseñas de productos (reseñas de compras) y mensajes de la plataforma Weibo. Está diseñado para el análisis de los sentimientos en chino, lo que permite clasificarlos en categorías como positivos, neutrales o negativos.

‍

¿Para qué sirve este conjunto de datos?

‍

Modelos de entrenamiento de PNL para la clasificación de los sentimientos en mandarín
Desarrolle herramientas de análisis de opinión para aplicaciones comerciales o sociales
Probando la solidez de los modelos multilingües en textos chinos cotidianos

‍

¿Se puede enriquecer o mejorar?

‍

Sí. Podemos completar este corpus con otras áreas de opinión (política, cine, servicios públicos) o refinar las etiquetas de los sentimientos (nivel de intensidad, emoción específica). Una traducción paralela o una segmentación por tema también reforzarían el interés lingüístico y de aplicación del conjunto de datos.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐☆☆ (Datos fáciles de cargar vía Hugging Face)
🧼Limpieza requerida	⭐⭐⭐☆☆ (Baja — depende de los splits, pero los datos generalmente listos para usar)
🏷️Riqueza de anotaciones	⭐⭐⭐☆☆ (Sentimientos etiquetados — binario o ternario según la versión)
📜Licencia comercial	✅ Sí (MIT)
👨‍💻Ideal para principiantes	👩‍💻 Sí — ideal para iniciarse en análisis de sentimientos
🔁Reutilizable para fine-tuning	🔥 Perfecto para ajustar un clasificador BERT chino
🌍Diversidad cultural	🌏 Buena — datos provenientes de plataformas chinas auténticas

‍

🧠 Recomendado para

Proyectos de PNL chinos
Análisis de opinión en redes sociales
Modelos multilingües

‍

🔧 Herramientas compatibles

PyTorch
Hugging Face Transformers
SpaCy
FastText

‍

💡 Consejo

Si desea combinar este corpus con datos de otros idiomas, asegúrese de equilibrar las proporciones para evitar sesgos lingüísticos durante el ajuste.

Preguntas frecuentes

¿Cuántas etiquetas de sentimientos hay disponibles en este conjunto de datos?

Depende de la versión: algunas anotaciones son binarias (positivas/negativas), otras incluyen una clase neutra para una clasificación trinaria.

¿Se puede usar este conjunto de datos para textos largos?

En su mayor parte, los textos son cortos o medianos (reseñas, publicaciones), pero el conjunto de datos se puede completar con datos más largos si es necesario.

¿Se puede usar para entrenar un modelo de negocio?

Sí, la licencia del MIT permite un uso comercial sin restricciones, incluso en productos distribuidos.

Otros datasets

Texto

GitHub Code Snippets

Texto

Datos del FMI (Fondo Monetario Internacional)

Imagen

Tennis Player Actions Dataset