Conjunto de datos para la clasificación de textos: nuestra selección de los conjuntos de datos más confiables


Todos lo sabemos: tener datos de texto de gran tamaño es importante para entrenar modelos de PNL o LLM. Además, la clasificación de textos desempeña un papel esencial en el desarrollo de aplicaciones para procesamiento del lenguaje natural (PNL), lo que permite a los modelos de IA clasificar automáticamente la información textual.
En este contexto, el conjuntos de datos de clasificación de texto son recursos esenciales para la formación y evaluación de modelos de aprendizaje automático. Ya sea para tareas de clasificación de los sentimientos, al clasificar los temas o detectar el spam, la calidad y la diversidad de los conjuntos de datos influyen directamente en el rendimiento y la fiabilidad de los modelos.
💡 Este artículo ofrece una selección de 15 conjuntos de datos conocidos y reconocidos, utilizado y probado en la comunidad científica e industrial, garantizando bases sólidas para el aprendizaje y la evaluación de sistemas de clasificación de textos. Y si no encuentras lo que buscas... puedes contacta con nosotros, ¡estaremos encantados de crear un conjunto de datos a medida para ayudarlo a alcanzar sus objetivos!
📚 Introducción a la clasificación de textos
La clasificación de textos es una tarea fundamental en el campo del procesamiento del lenguaje natural (o PNL) y el aprendizaje automático. Consiste en asignar una o más etiquetas o categorías a un texto según su contenido, estilo o contexto. Esta tarea es fundamental en muchas áreas, como la búsqueda de información, la clasificación de las opiniones, la detección del spam, la recomendación de contenido, etc.
La clasificación del texto se puede lograr utilizando varios algoritmos y modelos, como redes neuronales, árboles de decisión, bosques aleatorios, máquinas vectoriales de soporte (SVM), etc. Cada modelo tiene sus propias fortalezas y debilidades, y la elección del modelo apropiado depende del tipo de datos, la complejidad de la tarea y los recursos disponibles.
¿Por qué los conjuntos de datos son esenciales para la clasificación de textos?
Los conjuntos de datos son esenciales para la clasificación de textos porque proporcionan modelos de aprendizaje automático con ejemplos estructurados que les permiten aprender a reconocer y diferenciar las categorías de texto. En el procesamiento del lenguaje natural, un modelo debe analizar grandes cantidades de datos para comprender los matices lingüísticos y contextuales específicos de cada categoría.
Concretamente, por ejemplo, puede usar archivos CSV para estructurar conjuntos de datos para el aprendizaje automático especificando las columnas necesarias y los formatos esperados para introducir datos en varios modelos, en particular para los bloques de clasificación.
Sin un conjunto de datos bien construido que abarque una amplia gama de casos y variaciones lingüísticas, el modelo puede ser inexacto, generalizado o irrelevante. Además, los conjuntos de datos permiten probar y validar el rendimiento de un modelo antes de usarlo en entornos reales, lo que garantiza que el modelo pueda gestionar los nuevos datos de forma fiable.
Por lo tanto, contribuyen no solo a la fase de aprendizaje, sino también a la fase de evaluación, ya que permiten optimizar continuamente los modelos de clasificación de textos para tareas específicas, como el análisis de sentimientos, la detección de spam o la categorización de documentos.
¿Cuáles son las características de un conjunto de datos de PNL confiable?
Un conjunto de datos confiable para el procesamiento del lenguaje natural (PNL) tiene varias características clave que garantizan su calidad y utilidad para entrenar y evaluar modelos de aprendizaje automático.
Tamaño suficiente
Un gran conjunto de datos, que incluye una variedad de casos, permite que el modelo aprenda varios matices lingüísticos. Esto reduce el riesgo de sobreaprendizaje sobre ejemplos específicos y mejora la capacidad de generalización del modelo.
Variedad lingüística y contextual
Un buen conjunto de datos contiene ejemplos de una variedad de contextos y estilos lingüísticos, incluidos dialectos formales, informales y varios dialectos y jergas específicas. Esta variedad permite que el modelo se adapte mejor a las diferencias en el lenguaje natural.
Etiquetado preciso y uniforme
Los datos deben etiquetarse de manera coherente y precisa, sin errores ni ambigüedades. Un etiquetado fiable permite que el modelo aprenda correctamente a clasificar los textos en categorías bien definidas, ya sean sentimientos, temas u otros tipos de clasificación.
Representatividad de los datos
Un conjunto de datos fiable debe representar los casos de uso reales para los que se utilizará el modelo. Por ejemplo, para una clasificación de los sentimientos en las redes sociales, es esencial que el conjunto de datos contenga una muestra de textos de plataformas similares.
Equilibrio de clases
En un conjunto de datos de clasificación, cada clase (o categoría) debe estar suficientemente representada para evitar sesgos. Un conjunto de datos bien equilibrado garantiza que el modelo no esté sobreentrenado para detectar categorías más actuales a expensas de las menos frecuentes.
Puntualidad y pertinencia
A medida que el lenguaje evoluciona rápidamente, es necesario actualizar periódicamente un conjunto de datos fiable para reflejar los cambios en el vocabulario, la sintaxis y las tendencias lingüísticas.
Estas características garantizan que el conjunto de datos sea adecuado para el procesamiento automático del lenguaje natural, lo que permite que los modelos de aprendizaje automático logren un rendimiento óptimo sin dejar de ser sólidos frente a datos nuevos y variados.
¿Cuáles son los 15 mejores conjuntos de datos para la clasificación de textos?
Cada conjunto de datos tiene especificidades adaptadas a objetivos específicos, ya sea análisis de sentimientos, moderación, detección de spam o categorización de temas.
Esta es nuestra selección de 15 conjuntos de datos que se usan comúnmente para la clasificación de textos, que abarcan varios casos de uso y tipos de clasificación, y son ampliamente reconocidos por su confiabilidad en el procesamiento del lenguaje natural.
1. Reseñas de IMDB
Este conjunto de datos incluye reseñas de películas etiquetadas como positivas o negativas. Su ventaja radica en su tamaño y popularidad, lo que lo convierte en un estándar para clasificar los sentimientos. Su especificidad radica en que ofrece textos ricos en opiniones, ideales para modelos que necesitan entender los matices del lenguaje en las opiniones de los usuarios.
🔗 Enlace: Kaggle IMDB
2. Reseñas de Amazon
Este conjunto de datos, que contiene reseñas de productos con niveles de satisfacción, es particularmente útil para detectar opiniones múltiples y la satisfacción de los clientes. Es extenso, está bien estructurado e incluye metadatos (producto, valoración, etc.), lo que permite analizar en profundidad el comportamiento de compra y los comentarios de los usuarios.
🔗 Enlace: Reseñas de Kaggle Amazon
3. Reseñas de Yelp
Con las opiniones de los clientes sobre las empresas, etiquetadas de una a cinco estrellas, este conjunto de datos ofrece una granularidad fina para la clasificación de los sentimientos. Su particularidad es que contiene información útil en el contexto de los restaurantes, los hoteles y los servicios locales, una ventaja para los modelos dirigidos a estos sectores.
🔗 Enlace: Reseñas de Yelp
4. AG News
Este conjunto de datos se usa comúnmente para la clasificación de temas en artículos de noticias. Está estructurado en cuatro categorías (ciencia, deportes, negocios y tecnología), lo que ofrece una base excelente para los modelos de PNL centrados en la clasificación temática o el análisis de noticias.
🔗 Enlace: Noticias de AG
5. 20 grupos de noticias
Un conjunto de datos compuesto por artículos de 20 grupos de discusión diferentes. Su principal ventaja radica en la diversidad temática, ya que abarca una amplia gama de temas, que van desde la ciencia hasta el ocio, lo que resulta valioso para poner a prueba la capacidad de los modelos de identificar temas específicos en corpus heterogéneos.
🔗 Enlace: 20 grupos de noticias
6. Ontología DBpedia
Este conjunto de datos proviene de Wikipedia y cubre más de 500 categorías temáticas, perfecto para la clasificación de documentos o tareas de enriquecimiento de conocimientos. Su riqueza y estructura permiten entrenar modelos para tareas complejas de categorización de contenido enciclopédico.
🔗 Enlace: Ontología DBpedia
7. SST (banco de árboles de confianza de Stanford)
Un conjunto de datos muy detallado para el análisis de los sentimientos, con anotaciones a nivel de oraciones y palabras. Su granularidad permite captar sentimientos sutiles y formar modelos capaces de captar matices como la positividad o la negatividad progresiva en una crítica.
🔗 Enlace: Stanford SST
8. Reuters-21578
Este conjunto de datos, que se utiliza con frecuencia en la investigación de la PNL, contiene artículos organizados por temas económicos y financieros. Es muy fiable para la clasificación de temas financieros y económicos, una ventaja para las empresas y las aplicaciones orientadas a la inteligencia empresarial.
🔗 Enlace: Reuters-21578
9. Conjunto de datos de análisis de sentimientos de Twitter
Este conjunto de datos incluye tuits etiquetados según el sentimiento que transmiten, a menudo positivos, negativos o neutrales. Es ideal para las plantillas de PNL de redes sociales porque incluye lenguaje informal, abreviaturas y frases cortas específicas para el formato de los tuits.
🔗 Enlace: Análisis de sentimientos en Twitter
10. Clasificación de preguntas de TREC (Conferencia de recuperación de textos)
Destinado a la clasificación de las preguntas en categorías (por ejemplo, ubicación, persona, número), este conjunto de datos es particularmente útil para desarrollar sistemas de respuesta automática. Su ventaja radica en su estructura única, que ayuda a los modelos a comprender mejor las intenciones de las preguntas.
🔗 Enlace: TREC
11. Conjunto de datos de categorías de noticias
Este conjunto de datos de clasificación periodística reúne artículos de noticias de múltiples fuentes y ofrece una base diversificada y actualizada para la clasificación temática o los modelos de análisis del contenido de los medios.
🔗 Enlace: Conjunto de datos de categorías de noticias
12. Corpus público de SpamAssassin
Este corpus de correos electrónicos se utiliza para la detección de spam. Su ventaja es que contiene mensajes de diversos contextos (suplantación de identidad, promociones, etc.), lo que permite formar modelos eficaces en la detección del spam en los correos electrónicos y la mensajería.
🔗 Enlace: Asesino de spam
13. Comentarios tóxicos de Wikipedia
Este conjunto de datos está diseñado para detectar comentarios tóxicos, insultantes u odiosos en plataformas públicas. Ayuda a desarrollar modelos para las aplicaciones de moderación de contenido, un área cada vez más importante en las redes sociales y los foros.
🔗 Enlace: Comentarios tóxicos
14. Conjunto de datos de emociones
Este conjunto de datos está destinado a la clasificación de las emociones (alegría, tristeza, enfado, etc.) en mensajes cortos. Es especialmente adecuado para el análisis de los sentimientos en contextos sociales o para las aplicaciones de asistencia al usuario que requieren una comprensión detallada de las emociones.
🔗 Enlace: Conjunto de datos de emociones
15. Conjunto de datos de correo electrónico de Enron
Incluyendo los correos electrónicos de la empresa Enron, este conjunto de datos se usa comúnmente para el análisis de los intercambios en las empresas, especialmente en contextos de detección de fraudes o gestión de las comunicaciones internas. Su especificidad radica en la variedad de sus muestras (respuestas, cadenas de correo electrónico), una ventaja para el análisis de relaciones y temas.
🔗 Enlace: Conjunto de datos de correo electrónico de Enron
¿Qué conjuntos de datos debo usar para detectar temas o categorías?
Para la detección de temas o categorías, varios conjuntos de datos se distinguen por su diversidad temática y su estructura adaptada a la clasificación. Estas son las opciones más relevantes:
1. Noticias de AG
Compuesto por artículos de prensa clasificados en cuatro categorías principales: ciencia, deportes, negocios y tecnología, este conjunto de datos es ideal para tareas de clasificación temática. Su tamaño y simplicidad lo convierten en un excelente punto de partida para los modelos que necesitan aprender a identificar una variedad de temas en los textos de noticias.
2. 20 grupos de noticias
Este conjunto de datos contiene artículos de 20 foros de debate que cubren una amplia gama de temas, como ciencia, política, entretenimiento y tecnología. Su riqueza temática lo convierte en un recurso ideal para que los modelos de formación reconozcan categorías en corpus heterogéneos y capturen las particularidades de cada tema.
3. Ontología DBpedia
Diseñado a partir de Wikipedia, este conjunto de datos está organizado en varios cientos de categorías temáticas. Gracias a su nivel de detalle, es particularmente adecuado para las tareas de clasificación de documentos y la categorización de contenido enciclopédico, ideal para proyectos que requieren una categorización precisa y un enriquecimiento de conocimientos.
4. Conjunto de datos de categorías de noticias
Compuesto por artículos de prensa de diversas fuentes, este conjunto de datos está organizado en categorías periodísticas. Es perfecto para los modelos destinados a clasificar textos de noticias, ya que permite identificar rápidamente los temas principales de los artículos de los medios de comunicación, ya sean relacionados con los negocios, el entretenimiento, la política, etc.
5. Reuters-21578
Este conjunto de datos contiene artículos de prensa clasificados principalmente por temas económicos y financieros. Se usa ampliamente para aplicaciones orientadas a la inteligencia empresarial y la investigación económica, lo que permite a los modelos comprender mejor los temas específicos de los negocios, las finanzas y la industria.
💡 Estos conjuntos de datos ofrecen recursos valiosos para la detección de temas, cada uno de los cuales se adapta a tipos particulares de contenido (prensa, foros, enciclopedias) y ofrece niveles de detalle variados según las necesidades del modelo.
¿Qué pasa con los conjuntos de datos para la clasificación de textos en varios idiomas?
Varios conjuntos de datos multilingües están diseñados específicamente para la clasificación de textos en varios idiomas. Estos conjuntos de datos permiten que los modelos de aprendizaje automático aprendan a reconocer y clasificar textos teniendo en cuenta la diversidad lingüística. Estos son algunos de los más utilizados:
1. XNLI (inferencia de lenguaje natural multilingüe)
Este conjunto de datos está diseñado para tareas de comprensión y clasificación de textos en 15 idiomas, incluidos idiomas como el francés, el español, el chino y el árabe. Se utiliza principalmente para la clasificación de nicks (relaciones de significado), pero se puede adaptar para otras tareas de clasificación, especialmente en contextos multilingües.
2. MLDoc
Basado en el corpus RCV1/RCV2 de Reuters, este conjunto de datos contiene documentos de actualidad en ocho idiomas (inglés, alemán, español, francés, etc.). Está organizado en cuatro categorías principales (negocios, entretenimiento, salud y ciencia) y es ideal para la clasificación temática multilingüe, especialmente útil para las modelos que necesitan trabajar en un entorno informativo internacional.
3. MARC (corpus multilingüe de reseñas de Amazon)
Este conjunto de datos incluye reseñas de productos de Amazon en varios idiomas (incluidos inglés, alemán, francés, japonés, español, etc.), etiquetadas para la clasificación de opiniones. Es adecuado para proyectos de clasificación de sentimientos y opiniones en plataformas internacionales de comercio electrónico.
4. Clasificación multilingüe de comentarios tóxicos de Jigsaw
Desarrollado para identificar comentarios tóxicos en varios idiomas (inglés, español, español, italiano, italiano, portugués, francés, etc.), este conjunto de datos es particularmente útil para las tareas de moderación de contenido en contextos multilingües. A menudo se usa para entrenar modelos que detecten la incitación al odio y otras formas de toxicidad.
5. CC100
Este conjunto de datos, que forma parte del proyecto Common Crawl, ofrece datos de la web en varios idiomas. Si bien no está etiquetado específicamente para la clasificación temática, es lo suficientemente amplio como para extraer y crear subcorpus multilingües para tareas específicas de clasificación de textos.
6. OPUS (Corpus paralelo abierto)
OPUS es una colección de recursos de texto multilingües que combina datos de una variedad de fuentes, como sitios de noticias, foros e instituciones internacionales. Aunque su contenido es variado, permite la creación de subconjuntos multilingües para tareas de clasificación temática o emocional, según las necesidades del usuario.
💡 Estos conjuntos de datos multilingües permiten a los investigadores y otros entusiastas de la inteligencia artificial desarrollar modelos capaces de procesar datos textuales en varios idiomas, un activo valioso para las aplicaciones internacionales o para las plataformas que requieren una gestión de contenido global.
Conclusión
La clasificación del texto desempeña un papel central en el procesamiento del lenguaje natural, y la elección del conjunto de datos correcto es decisiva para el rendimiento y la precisión de los modelos. Los conjuntos de datos proporcionan una base estructurada para que los modelos de formación distingan entre sentimientos, temas y categorías e incluso comprendan los matices lingüísticos en contextos multilingües.
Opciones como IMDB Reviews y Amazon Reviews destacan para el análisis de opiniones, mientras que los conjuntos de datos como AG News y DBpedia Ontology son recursos de primera elección para la clasificación temática. Además, el necesidades específicas para moderar o detectar la incitación al odio encuentre respuestas en conjuntos de datos como Wikipedia Toxic Comments y Jigsaw Multilingual Toxic Comment Classification, que son especialmente adecuados para entornos multilingües.
Gracias a esta diversidad de recursos, los investigadores y entusiastas de la inteligencia artificial de todos los orígenes tienen herramientas adaptadas a las particularidades de cada proyecto, ya sea para la moderación de contenido, el análisis de opiniones o la categorización multilingüe. En última instancia, estos conjuntos de datos permiten crear modelos de IA más sólidos y mejor adaptados a los diversos requisitos de la clasificación de textos, garantizando así una base sólida y mejores resultados para el desarrollo de soluciones avanzadas de PNL.