sQuad (conjunto de datos de respuestas a preguntas de Stanford)
sQuad (conjunto de datos de respuestas a preguntas de Stanford) es un conjunto de datos de texto de referencia para entrenar y evaluar modelos de comprensión del lenguaje natural. Combina extractos de Wikipedia con preguntas específicas, cuyas respuestas están directamente presentes en los pasajes proporcionados.
Más de 100 000 pares de preguntas y respuestas, en formato JSON
Gratis para la investigación académica. El uso comercial puede requerir una auditoría de las condiciones de uso
Descripción
El conjunto de datos sQuad incluye:
- Más de 100 000 pares de preguntas y respuestas (versión 1.1)
- Pasajes de texto de páginas de Wikipedia
- Anotaciones humanas en las que las respuestas son fragmentos continuos del texto (basadas en el intervalo)
- Un formato fácil de usar estructurado en JSON para la formación supervisada
¿Para qué sirve este conjunto de datos?
sQuad se usa ampliamente para:
- Entrenamiento de modelos de preguntas y respuestas en PNL
- Evaluación del desempeño de los modelos en tareas de comprensión del lenguaje natural
- El ajuste de grandes modelos lingüísticos para aplicaciones prácticas (asistentes de voz, bots conversacionales, motores de búsqueda)
- Experimentación sobre métodos para extraer, reformular o sintetizar respuestas
¿Se puede enriquecer o mejorar?
Sí, sQuad se puede enriquecer con:
- La adición de preguntas más complejas (respuestas múltiples, implícitas o reformuladas)
- La introducción de contenido de fuentes distintas a Wikipedia para una mejor generalización
- Evaluación de tareas derivadas: respuestas largas, generación abierta o respuesta justificada
- Traducción y adaptación para versiones multilingües o especializadas (médicas, legales...)
Herramientas como Haystack, Hugging Face Transformers o LangChain se utilizan habitualmente para aprovechar o ampliar sQuad en las canalizaciones modernas de PNL.
🔗 Fuente: Conjunto de datos SquAD
Preguntas frecuentes
¿Cuál es la diferencia entre sQuad 1.1 y 2.0?
sQuad 1.1 solo contiene preguntas cuyas respuestas están siempre presentes en el texto. sQuad 2.0 agrega preguntas sin respuesta para probar la capacidad de los modelos de reconocer la ausencia de información relevante.
¿Se puede usar sQuad para modelos de generación gratuita como GPT?
Sí Aunque originalmente se diseñó para la extracción, sQuad se puede adaptar para entrenar o evaluar modelos generativos utilizando el contexto como indicador y la respuesta como objetivo.
¿Hay alternativas multilingües a sQuad?
Sí, varios conjuntos de datos se inspiran en él, como XQuad, MLQA o TyDi QA, que ofrecen versiones multilingües o se adaptan a idiomas específicos.