En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
SMS Spam Collection
Texte

SMS Spam Collection

Dataset public regroupant 5 574 messages SMS étiquetés spam ou légitimes (ham), collectés depuis diverses sources pour la recherche en filtrage SMS.

Télécharger le dataset
Taille

5 574 messages SMS, format texte brut (TXT/CSV)

Licence

CC BY 4.0

Description

Le dataset SMS Spam Collection contient 5 574 messages SMS multivariés labellisés en spam ou ham (non spam). Ces données ont été collectées à partir de plusieurs sources, incluant des forums et corpus universitaires, offrant une base solide pour la recherche en classification et filtrage anti-spam.

À quoi sert ce dataset ?

  • Entraînement d’algorithmes de classification de texte pour filtrage spam
  • Recherche sur le traitement automatique du langage naturel (NLP) appliqué aux SMS
  • Évaluation de techniques de clustering et d’analyse de texte

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’ajouter des données récentes de SMS, d’annoter manuellement des messages ambigus, ou d’intégrer des métadonnées (heure, origine) pour améliorer la performance des modèles.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐☆ (format texte simple et standard)
🧼Besoin de nettoyage ⭐⭐⭐⭐☆ (Faible à modéré – quelques doublons et encodages à vérifier)
🏷️Richesse des annotations ⭐⭐⭐☆☆ (Basique – uniquement spam/ham)
📜Licence commerciale ✅ Oui (CC BY 4.0)
👨‍💻Idéal pour les débutants 👍 Parfait pour initiation à la classification de texte
🔁Réutilisable en fine-tuning 🔥 Adapté aux modèles de NLP classiques et fine-tuning
🌍Diversité culturelle 🌍 Messages majoritairement anglophones, sources diverses

🧠 Recommandé pour

  • Data scientists débutants
  • Chercheurs NLP
  • Développeurs d’applications anti-spam

🔧 Outils compatibles

  • Scikit-learn
  • NLTK
  • TensorFlow
  • PyTorch
  • SpaCy

💡 Astuce

Pensez à prétraiter les SMS pour normaliser les abréviations et caractères spéciaux avant entraînement.

Questions fréquemment posées

Ce dataset convient-il pour entraîner un filtre anti-spam SMS ?

Oui, il est spécifiquement conçu pour la classification spam/ham de messages SMS.

Quel est le format des données dans ce dataset ?

Les messages sont en format texte brut, souvent distribués en CSV avec deux colonnes : étiquette et texte du message.

Peut-on utiliser ce dataset pour des projets multilingues ?

Non, les messages sont majoritairement en anglais, il faudrait intégrer d’autres sources pour multilinguisme.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.