sQuad (conjunto de datos de respuestas a preguntas de Stanford)

sQuad (conjunto de datos de respuestas a preguntas de Stanford) es un conjunto de datos de texto de referencia para entrenar y evaluar modelos de comprensión del lenguaje natural. Combina extractos de Wikipedia con preguntas específicas, cuyas respuestas están directamente presentes en los pasajes proporcionados.

Obtén el dataset

Tamaño

Más de 100 000 pares de preguntas y respuestas, en formato JSON

Licencia

Gratis para la investigación académica. El uso comercial puede requerir una auditoría de las condiciones de uso

Descripción

‍
El conjunto de datos sQuad incluye:

Más de 100 000 pares de preguntas y respuestas (versión 1.1)
Pasajes de texto de páginas de Wikipedia
Anotaciones humanas en las que las respuestas son fragmentos continuos del texto (basadas en el intervalo)
Un formato fácil de usar estructurado en JSON para la formación supervisada

‍

¿Para qué sirve este conjunto de datos?

‍
sQuad se usa ampliamente para:

Entrenamiento de modelos de preguntas y respuestas en PNL
Evaluación del desempeño de los modelos en tareas de comprensión del lenguaje natural
El ajuste de grandes modelos lingüísticos para aplicaciones prácticas (asistentes de voz, bots conversacionales, motores de búsqueda)
Experimentación sobre métodos para extraer, reformular o sintetizar respuestas

‍

¿Se puede enriquecer o mejorar?

‍
Sí, sQuad se puede enriquecer con:

La adición de preguntas más complejas (respuestas múltiples, implícitas o reformuladas)
La introducción de contenido de fuentes distintas a Wikipedia para una mejor generalización
Evaluación de tareas derivadas: respuestas largas, generación abierta o respuesta justificada
Traducción y adaptación para versiones multilingües o especializadas (médicas, legales...)

‍

Herramientas como Haystack, Hugging Face Transformers o LangChain se utilizan habitualmente para aprovechar o ampliar sQuad en las canalizaciones modernas de PNL.

‍

🔗 Fuente: Conjunto de datos SquAD

‍

Preguntas frecuentes

¿Cuál es la diferencia entre sQuad 1.1 y 2.0?

sQuad 1.1 solo contiene preguntas cuyas respuestas están siempre presentes en el texto. sQuad 2.0 agrega preguntas sin respuesta para probar la capacidad de los modelos de reconocer la ausencia de información relevante.

‍

¿Se puede usar sQuad para modelos de generación gratuita como GPT?

Sí Aunque originalmente se diseñó para la extracción, sQuad se puede adaptar para entrenar o evaluar modelos generativos utilizando el contexto como indicador y la respuesta como objetivo.

¿Hay alternativas multilingües a sQuad?

Sí, varios conjuntos de datos se inspiran en él, como XQuad, MLQA o TyDi QA, que ofrecen versiones multilingües o se adaptan a idiomas específicos.

Otros datasets

Texto

AI-Generated Essays Dataset

Texto

Titanium 2.1: conjunto de datos de DevOps y arquitectura de modelos LLM

Texto

Datos bursátiles de Quandl