En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
sQuad (conjunto de datos de respuestas a preguntas de Stanford)
Texto

sQuad (conjunto de datos de respuestas a preguntas de Stanford)

sQuad (conjunto de datos de respuestas a preguntas de Stanford) es un conjunto de datos de texto de referencia para entrenar y evaluar modelos de comprensión del lenguaje natural. Combina extractos de Wikipedia con preguntas específicas, cuyas respuestas están directamente presentes en los pasajes proporcionados.

Obtén el dataset
Tamaño

Más de 100 000 pares de preguntas y respuestas, en formato JSON

Licencia

Gratis para la investigación académica. El uso comercial puede requerir una auditoría de las condiciones de uso

Descripción


El conjunto de datos sQuad incluye:

  • Más de 100 000 pares de preguntas y respuestas (versión 1.1)
  • Pasajes de texto de páginas de Wikipedia
  • Anotaciones humanas en las que las respuestas son fragmentos continuos del texto (basadas en el intervalo)
  • Un formato fácil de usar estructurado en JSON para la formación supervisada

¿Para qué sirve este conjunto de datos?


sQuad se usa ampliamente para:

  • Entrenamiento de modelos de preguntas y respuestas en PNL
  • Evaluación del desempeño de los modelos en tareas de comprensión del lenguaje natural
  • El ajuste de grandes modelos lingüísticos para aplicaciones prácticas (asistentes de voz, bots conversacionales, motores de búsqueda)
  • Experimentación sobre métodos para extraer, reformular o sintetizar respuestas

¿Se puede enriquecer o mejorar?


Sí, sQuad se puede enriquecer con:

  • La adición de preguntas más complejas (respuestas múltiples, implícitas o reformuladas)
  • La introducción de contenido de fuentes distintas a Wikipedia para una mejor generalización
  • Evaluación de tareas derivadas: respuestas largas, generación abierta o respuesta justificada
  • Traducción y adaptación para versiones multilingües o especializadas (médicas, legales...)

Herramientas como Haystack, Hugging Face Transformers o LangChain se utilizan habitualmente para aprovechar o ampliar sQuad en las canalizaciones modernas de PNL.

🔗 Fuente: Conjunto de datos SquAD

Preguntas frecuentes

¿Cuál es la diferencia entre sQuad 1.1 y 2.0?

sQuad 1.1 solo contiene preguntas cuyas respuestas están siempre presentes en el texto. sQuad 2.0 agrega preguntas sin respuesta para probar la capacidad de los modelos de reconocer la ausencia de información relevante.

¿Se puede usar sQuad para modelos de generación gratuita como GPT?

Sí Aunque originalmente se diseñó para la extracción, sQuad se puede adaptar para entrenar o evaluar modelos generativos utilizando el contexto como indicador y la respuesta como objetivo.

¿Hay alternativas multilingües a sQuad?

Sí, varios conjuntos de datos se inspiran en él, como XQuad, MLQA o TyDi QA, que ofrecen versiones multilingües o se adaptan a idiomas específicos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.