Circa - Interprétation des réponses indirectes en conversation
Le dataset <strong>Circa</strong> contient des dialogues en anglais centrés sur des questions polaires (oui/non) et leurs réponses indirectes. Les échanges sont extraits de 10 situations sociales distinctes et annotés par plusieurs annotateurs pour interpréter la réponse indirecte.
Plusieurs milliers de paires question-réponse, format JSON
CC-BY 4.0
Description
Circa est un corpus linguistique qui aide à comprendre comment interpréter des réponses indirectes à des questions fermées dans des contextes sociaux variés. Chaque exemple associe une question polaire posée par une personne (X) et une réponse indirecte donnée par une autre (Y), accompagnées d’annotations multiples indiquant l’interprétation probable.
À quoi sert ce dataset ?
- Former des modèles NLP à détecter l’implicite dans les réponses indirectes
- Étudier les interactions conversationnelles en contexte social
- Améliorer la compréhension des assistants virtuels face à des réponses non explicites
Peut-on l’enrichir ou l’améliorer ?
Oui, le dataset peut être étendu en ajoutant d’autres contextes sociaux, langues ou annotations plus fines sur le ton ou l’émotion. Des versions multilingues seraient également bénéfiques.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en NLP conversationnel
- Développeurs d’assistants virtuels
- Linguistes computationnels
🔧 Outils compatibles
- Hugging Face
- PyTorch
- TensorFlow
- SpaCy
💡 Astuce
Utiliser plusieurs annotations pour mieux calibrer la confiance des interprétations dans les modèles.
Questions fréquemment posées
Quel type de questions ce dataset contient-il ?
Il contient principalement des questions fermées (oui/non) posées dans des situations sociales variées.
Comment les réponses indirectes sont-elles annotées ?
Chaque réponse est annotée par cinq annotateurs, avec une majorité pour déterminer l’interprétation principale.
Le dataset peut-il être utilisé pour des langues autres que l’anglais ?
Actuellement non, mais il peut être étendu ou adapté pour d’autres langues et contextes sociaux.




