SMS Spam Collection

Conjunto de datos público que contiene 5.574 mensajes SMS etiquetados como spam o legítimos (jamón), recopilados de varias fuentes para investigar el filtrado de SMS.

Obtén el dataset

Tamaño

5.574 mensajes SMS, formato de texto plano (TXT/CSV)

Licencia

CC BY 4.0

Descripción

‍

El conjunto de datos Recopilación de spam por SMS contiene 5.574 mensajes SMS multivariantes etiquetados como spam o jamón (no spam). Estos datos se recopilaron de varias fuentes, incluidos foros académicos y corporaciones, y proporcionan una base sólida para la investigación sobre la clasificación y el filtrado del spam.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrenamiento de algoritmos de clasificación de textos para el filtrado de spam
Investigación sobre el procesamiento del lenguaje natural (PNL) aplicado a los SMS
Evaluación de técnicas de agrupamiento y análisis de textos

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible añadir datos SMS recientes, anotar manualmente mensajes ambiguos o integrar metadatos (hora, origen) para mejorar el rendimiento de los modelos.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐☆ (Formato de texto simple y estándar)
🧼Limpieza necesaria	⭐⭐⭐⭐☆ (Baja a moderada – algunos duplicados y codificaciones a verificar)
🏷️Riqueza de anotaciones	⭐⭐⭐☆☆ (Básico – solo etiquetas spam/ham)
📜Licencia comercial	✅ Sí (CC BY 4.0)
👨‍💻Ideal para principiantes	👍 Perfecto para introducción a la clasificación de texto
🔁Reutilizable para fine-tuning	🔥 Adecuado para modelos NLP clásicos y fine-tuning
🌍Diversidad cultural	🌍 Mensajes mayormente en inglés, fuentes diversas

‍

🧠 Recomendado para

Científicos de datos junior
Investigadores de PNL
Desarrolladores de aplicaciones antispam

‍

🔧 Herramientas compatibles

Scikit-learn
NLTK
TensorFlow
PyTorch
Espacio Y

‍

💡 Consejo

Considere la posibilidad de preprocesar los mensajes de texto para estandarizar las abreviaturas y los caracteres especiales antes de la capacitación.

Preguntas frecuentes

¿Este conjunto de datos es adecuado para entrenar un filtro de spam por SMS?

Sí, está diseñado específicamente para la clasificación de mensajes SMS como spam o jamón.

¿Cuál es el formato de los datos de este conjunto de datos?

Los mensajes están en formato de texto sin formato y, a menudo, se distribuyen en formato CSV con dos columnas: etiqueta y texto del mensaje.

¿Se puede usar este conjunto de datos para proyectos multilingües?

No, los mensajes están en su mayoría en inglés, se deben integrar otras fuentes para el multilingüismo.

Otros datasets

Vídeo

Shoplifting Video Dataset

Imagen

CeleBA

Multimodal

MM-IMDb (conjunto de datos IMDb multimodal)