SMS Spam Collection
Conjunto de datos público que contiene 5.574 mensajes SMS etiquetados como spam o legítimos (jamón), recopilados de varias fuentes para investigar el filtrado de SMS.
Descripción
El conjunto de datos Recopilación de spam por SMS contiene 5.574 mensajes SMS multivariantes etiquetados como spam o jamón (no spam). Estos datos se recopilaron de varias fuentes, incluidos foros académicos y corporaciones, y proporcionan una base sólida para la investigación sobre la clasificación y el filtrado del spam.
¿Para qué sirve este conjunto de datos?
- Entrenamiento de algoritmos de clasificación de textos para el filtrado de spam
- Investigación sobre el procesamiento del lenguaje natural (PNL) aplicado a los SMS
- Evaluación de técnicas de agrupamiento y análisis de textos
¿Se puede enriquecer o mejorar?
Sí, es posible añadir datos SMS recientes, anotar manualmente mensajes ambiguos o integrar metadatos (hora, origen) para mejorar el rendimiento de los modelos.
🔎 En resumen
🧠 Recomendado para
- Científicos de datos junior
- Investigadores de PNL
- Desarrolladores de aplicaciones antispam
🔧 Herramientas compatibles
- Scikit-learn
- NLTK
- TensorFlow
- PyTorch
- Espacio Y
💡 Consejo
Considere la posibilidad de preprocesar los mensajes de texto para estandarizar las abreviaturas y los caracteres especiales antes de la capacitación.
Preguntas frecuentes
¿Este conjunto de datos es adecuado para entrenar un filtro de spam por SMS?
Sí, está diseñado específicamente para la clasificación de mensajes SMS como spam o jamón.
¿Cuál es el formato de los datos de este conjunto de datos?
Los mensajes están en formato de texto sin formato y, a menudo, se distribuyen en formato CSV con dos columnas: etiqueta y texto del mensaje.
¿Se puede usar este conjunto de datos para proyectos multilingües?
No, los mensajes están en su mayoría en inglés, se deben integrar otras fuentes para el multilingüismo.