En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Circa - Interprétation des réponses indirectes en conversation
Texte

Circa - Interprétation des réponses indirectes en conversation

Le dataset <strong>Circa</strong> contient des dialogues en anglais centrés sur des questions polaires (oui/non) et leurs réponses indirectes. Les échanges sont extraits de 10 situations sociales distinctes et annotés par plusieurs annotateurs pour interpréter la réponse indirecte.

Télécharger le dataset
Taille

Plusieurs milliers de paires question-réponse, format JSON

Licence

CC-BY 4.0

Description

Circa est un corpus linguistique qui aide à comprendre comment interpréter des réponses indirectes à des questions fermées dans des contextes sociaux variés. Chaque exemple associe une question polaire posée par une personne (X) et une réponse indirecte donnée par une autre (Y), accompagnées d’annotations multiples indiquant l’interprétation probable.

À quoi sert ce dataset ?

  • Former des modèles NLP à détecter l’implicite dans les réponses indirectes
  • Étudier les interactions conversationnelles en contexte social
  • Améliorer la compréhension des assistants virtuels face à des réponses non explicites

Peut-on l’enrichir ou l’améliorer ?

Oui, le dataset peut être étendu en ajoutant d’autres contextes sociaux, langues ou annotations plus fines sur le ton ou l’émotion. Des versions multilingues seraient également bénéfiques.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Données en JSON simples à manipuler)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Données propres, peu de prétraitement nécessaire)
🏷️ Richesse des annotations⭐⭐⭐⭐✩ (Annotations multicritères sur l’interprétation)
📜 Licence commerciale✅ Oui (CC-BY 4.0)
👨‍💻 Idéal pour les débutants⚠️ Moyen – compréhension nécessaire du contexte conversationnel
🔁 Réutilisable en fine-tuning🎯 Adapté à la formation de modèles conversationnels fins
🌍 Diversité culturelle⚠️ Limité à l’anglais, contextes sociaux occidentaux

🧠 Recommandé pour

  • Chercheurs en NLP conversationnel
  • Développeurs d’assistants virtuels
  • Linguistes computationnels

🔧 Outils compatibles

  • Hugging Face
  • PyTorch
  • TensorFlow
  • SpaCy

💡 Astuce

Utiliser plusieurs annotations pour mieux calibrer la confiance des interprétations dans les modèles.

Questions fréquemment posées

Quel type de questions ce dataset contient-il ?

Il contient principalement des questions fermées (oui/non) posées dans des situations sociales variées.

Comment les réponses indirectes sont-elles annotées ?

Chaque réponse est annotée par cinq annotateurs, avec une majorité pour déterminer l’interprétation principale.

Le dataset peut-il être utilisé pour des langues autres que l’anglais ?

Actuellement non, mais il peut être étendu ou adapté pour d’autres langues et contextes sociaux.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.