Sentiment Analysis for Mental Health
Dataset textuel compilant des énoncés issus de multiples sources (réseaux sociaux, forums) annotés selon 7 états de santé mentale (normal, dépression, suicidaire, anxiété, stress, bipolarité, trouble de la personnalité). Destiné à entraîner des modèles d’IA pour analyse sentimentale et chatbots santé mentale.
Environ 51'000 énoncés textuels annotés en 7 catégories, format CSV/JSON
Open Database License (ODbL) ou licence équivalente libre (vérification à confirmer)
Description
Le dataset Sentiment Analysis for Mental Health rassemble plus de 51 000 énoncés textuels issus de plateformes variées (Reddit, Twitter, etc.), annotés selon 7 catégories d’états mentaux. Il fournit un corpus riche et diversifié pour la compréhension des troubles psychologiques via le traitement automatique du langage.
À quoi sert ce dataset ?
- Entraîner des modèles de classification d’états mentaux à partir de texte.
- Développer des chatbots intelligents pour le soutien psychologique.
- Effectuer des analyses sentimentales pour détecter tendances et crises de santé mentale.
Peut-on l’enrichir ou l’améliorer ?
Oui, il est possible d’améliorer la granularité des annotations, d’ajouter des métadonnées contextuelles, ou d’étendre le corpus avec d’autres sources. Le nettoyage des données et la gestion des biais sont essentiels pour un usage optimal.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en santé mentale et IA
- Développeurs de chatbot
- Chercheurs spécialisés en analyse de sentiments en IA
🔧 Outils compatibles
- Hugging Face Transformers
- spaCy
- Scikit-learn
- Rasa
💡 Astuce
Utiliser des méthodes de data augmentation textuelle pour améliorer la robustesse des modèles.
Questions fréquemment posées
Ce dataset permet-il de détecter les risques suicidaires automatiquement ?
Oui, il inclut une catégorie spécifique « Suicidal » permettant de modéliser la détection précoce de risques.
⚠️ Avertissement important. Bien que ce jeu de données puisse être utilisé pour aider à identifier des signaux précoces potentiels d’automutilation ou d’idées suicidaires, il ne remplace en aucun cas une évaluation professionnelle ni les services d’urgence. Ses résultats sont expérimentaux et ne peuvent garantir une détection précise ou exhaustive de tous les risques. Si vous ou quelqu’un de votre entourage êtes en danger, veuillez demander immédiatement de l’aide à des professionnels de santé mentale qualifiés ou contacter les services d’urgence, plutôt que de vous fier uniquement au modèle.
La diversité des sources impacte-t-elle la qualité des données ?
Oui, la variété des plateformes nécessite un nettoyage rigoureux pour éviter les biais liés aux contextes spécifiques.
Ce dataset est-il adapté à un usage commercial ?
La licence Open Database est généralement permissive, mais il convient de vérifier les termes exacts selon le projet et usage.