Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
SMS Spam Collection
Texto

SMS Spam Collection

Conjunto de datos público que contiene 5.574 mensajes SMS etiquetados como spam o legítimos (jamón), recopilados de varias fuentes para investigar el filtrado de SMS.

Obtén el dataset
Tamaño

5.574 mensajes SMS, formato de texto plano (TXT/CSV)

Licencia

CC BY 4.0

Descripción

El conjunto de datos Recopilación de spam por SMS contiene 5.574 mensajes SMS multivariantes etiquetados como spam o jamón (no spam). Estos datos se recopilaron de varias fuentes, incluidos foros académicos y corporaciones, y proporcionan una base sólida para la investigación sobre la clasificación y el filtrado del spam.

¿Para qué sirve este conjunto de datos?

  • Entrenamiento de algoritmos de clasificación de textos para el filtrado de spam
  • Investigación sobre el procesamiento del lenguaje natural (PNL) aplicado a los SMS
  • Evaluación de técnicas de agrupamiento y análisis de textos

¿Se puede enriquecer o mejorar?

Sí, es posible añadir datos SMS recientes, anotar manualmente mensajes ambiguos o integrar metadatos (hora, origen) para mejorar el rendimiento de los modelos.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐☆ (Formato de texto simple y estándar)
🧼Limpieza necesaria ⭐⭐⭐⭐☆ (Baja a moderada – algunos duplicados y codificaciones a verificar)
🏷️Riqueza de anotaciones ⭐⭐⭐☆☆ (Básico – solo etiquetas spam/ham)
📜Licencia comercial ✅ Sí (CC BY 4.0)
👨‍💻Ideal para principiantes 👍 Perfecto para introducción a la clasificación de texto
🔁Reutilizable para fine-tuning 🔥 Adecuado para modelos NLP clásicos y fine-tuning
🌍Diversidad cultural 🌍 Mensajes mayormente en inglés, fuentes diversas

🧠 Recomendado para

  • Científicos de datos junior
  • Investigadores de PNL
  • Desarrolladores de aplicaciones antispam

🔧 Herramientas compatibles

  • Scikit-learn
  • NLTK
  • TensorFlow
  • PyTorch
  • Espacio Y

💡 Consejo

Considere la posibilidad de preprocesar los mensajes de texto para estandarizar las abreviaturas y los caracteres especiales antes de la capacitación.

Preguntas frecuentes

¿Este conjunto de datos es adecuado para entrenar un filtro de spam por SMS?

Sí, está diseñado específicamente para la clasificación de mensajes SMS como spam o jamón.

¿Cuál es el formato de los datos de este conjunto de datos?

Los mensajes están en formato de texto sin formato y, a menudo, se distribuyen en formato CSV con dos columnas: etiqueta y texto del mensaje.

¿Se puede usar este conjunto de datos para proyectos multilingües?

No, los mensajes están en su mayoría en inglés, se deben integrar otras fuentes para el multilingüismo.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.