Circa - Interprétation des réponses indirectes en conversation

Le dataset <strong>Circa</strong> contient des dialogues en anglais centrés sur des questions polaires (oui/non) et leurs réponses indirectes. Les échanges sont extraits de 10 situations sociales distinctes et annotés par plusieurs annotateurs pour interpréter la réponse indirecte.

Télécharger le dataset

Taille

Plusieurs milliers de paires question-réponse, format JSON

Licence

CC-BY 4.0

Description

‍

Circa est un corpus linguistique qui aide à comprendre comment interpréter des réponses indirectes à des questions fermées dans des contextes sociaux variés. Chaque exemple associe une question polaire posée par une personne (X) et une réponse indirecte donnée par une autre (Y), accompagnées d’annotations multiples indiquant l’interprétation probable.

‍

À quoi sert ce dataset ?

‍

Former des modèles NLP à détecter l’implicite dans les réponses indirectes
Étudier les interactions conversationnelles en contexte social
Améliorer la compréhension des assistants virtuels face à des réponses non explicites

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, le dataset peut être étendu en ajoutant d’autres contextes sociaux, langues ou annotations plus fines sur le ton ou l’émotion. Des versions multilingues seraient également bénéfiques.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (Données en JSON simples à manipuler)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Données propres, peu de prétraitement nécessaire)
🏷️ Richesse des annotations	⭐⭐⭐⭐✩ (Annotations multicritères sur l’interprétation)
📜 Licence commerciale	✅ Oui (CC-BY 4.0)
👨‍💻 Idéal pour les débutants	⚠️ Moyen – compréhension nécessaire du contexte conversationnel
🔁 Réutilisable en fine-tuning	🎯 Adapté à la formation de modèles conversationnels fins
🌍 Diversité culturelle	⚠️ Limité à l’anglais, contextes sociaux occidentaux