Circa - Interpretación de respuestas indirectas en una conversación

El conjunto <strong>de datos Circa</strong> contiene diálogos en inglés que se centran en las preguntas polares (sí/no) y sus respuestas indirectas. Los intercambios se extraen de 10 situaciones sociales distintas y son anotados por varios anotadores para interpretar la respuesta indirecta.

Obtén el dataset

Tamaño

Varios miles de pares pregunta-respuesta, formato JSON

Licencia

CC-BY 4.0

Descripción

‍

Circa es un corpus lingüístico que ayuda a entender cómo interpretar las respuestas indirectas a preguntas cerradas en diversos contextos sociales. Cada ejemplo combina una pregunta polar formulada por una persona (X) y una respuesta indirecta dada por otra (Y), con múltiples anotaciones que indican la interpretación probable.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene los modelos de PNL para detectar lo implícito en las respuestas indirectas
Estudiar las interacciones conversacionales en un contexto social
Mejorar la comprensión de los asistentes virtuales ante las respuestas no explícitas

‍

¿Se puede enriquecer o mejorar?

‍

Sí, el conjunto de datos se puede ampliar añadiendo otros contextos sociales, idiomas o anotaciones más precisas sobre el tono o la emoción. Las versiones multilingües también serían beneficiosas.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Datos en JSON simples de manipular)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Datos limpios, poco preprocesamiento necesario)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐✩ (Anotaciones multicriterio sobre interpretación)
📜 Licencia comercial	✅ Sí (CC-BY 4.0)
👨‍💻 Ideal para principiantes	⚠️ Medio – comprensión necesaria del contexto conversacional
🔁 Reutilizable para fine-tuning	🎯 Adecuado para entrenar modelos conversacionales finos
🌍 Diversidad cultural	⚠️ Limitado al inglés, contextos sociales occidentales