SMS Spam Collection

Dataset public regroupant 5 574 messages SMS étiquetés spam ou légitimes (ham), collectés depuis diverses sources pour la recherche en filtrage SMS.

Télécharger le dataset

Taille

5 574 messages SMS, format texte brut (TXT/CSV)

Licence

CC BY 4.0

Description

‍

Le dataset SMS Spam Collection contient 5 574 messages SMS multivariés labellisés en spam ou ham (non spam). Ces données ont été collectées à partir de plusieurs sources, incluant des forums et corpus universitaires, offrant une base solide pour la recherche en classification et filtrage anti-spam.

‍

À quoi sert ce dataset ?

‍

Entraînement d’algorithmes de classification de texte pour filtrage spam
Recherche sur le traitement automatique du langage naturel (NLP) appliqué aux SMS
Évaluation de techniques de clustering et d’analyse de texte

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter des données récentes de SMS, d’annoter manuellement des messages ambigus, ou d’intégrer des métadonnées (heure, origine) pour améliorer la performance des modèles.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐☆ (format texte simple et standard)
🧼Besoin de nettoyage	⭐⭐⭐⭐☆ (Faible à modéré – quelques doublons et encodages à vérifier)
🏷️Richesse des annotations	⭐⭐⭐☆☆ (Basique – uniquement spam/ham)
📜Licence commerciale	✅ Oui (CC BY 4.0)
👨‍💻Idéal pour les débutants	👍 Parfait pour initiation à la classification de texte
🔁Réutilisable en fine-tuning	🔥 Adapté aux modèles de NLP classiques et fine-tuning
🌍Diversité culturelle	🌍 Messages majoritairement anglophones, sources diverses