En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
TREC-QA Dataset
Texte

TREC-QA Dataset

TREC-QA est un jeu de données conçu pour l’entraînement et l’évaluation de modèles de question-réponse (QA) en langage naturel. Il provient des conférences TREC (Text REtrieval Conference) et vise à tester la capacité des systèmes à fournir des réponses précises à des questions factuelles à partir d’un corpus de documents.

Télécharger le dataset
Taille

Plusieurs milliers de paires question-réponse, au format TXT

Licence

Usage académique sous conditions. Licence requise pour certaines versions commerciales

Description


Le dataset TREC-QA comprend :

  • Plusieurs milliers de questions courtes à réponse factuelle
  • Des passages de texte à analyser pour retrouver la bonne réponse
  • Des annotations de pertinence pour l’évaluation (bonne / mauvaise réponse)
  • Un format brut en TXT ou TSV, adapté à l’entraînement supervisé

À quoi sert ce dataset ?


TREC-QA est utilisé pour :

  • L’entraînement de modèles de question-réponse fermée (closed QA)
  • L’évaluation de moteurs de recherche intelligents basés sur le langage naturel
  • Le développement d’assistants virtuels capables de répondre à des questions factuelles
  • L’analyse de la pertinence des réponses dans des tâches de ranking

Peut-on l’enrichir ou l’améliorer ?


Oui, TREC-QA peut être adapté ou enrichi :

  • Ajout de contextes plus riches ou d’explications associées aux réponses
  • Combinaison avec des datasets récents comme Natural Questions ou HotpotQA
  • Traduction multilingue pour l’évaluation de modèles QA dans d’autres langues
  • Annotation des types de réponses (personne, lieu, date, quantité…)

🔗 Source : TREC-QA Dataset

Questions fréquemment posées

Quelle est la différence entre TREC-QA et SQuAD ?

SQuAD propose des réponses extraites directement d’un contexte donné, tandis que TREC-QA évalue la capacité à choisir la réponse correcte parmi plusieurs, à partir d’un corpus plus large.

TREC-QA est-il encore utilisé aujourd’hui ?

Oui, il reste un benchmark historique pour la QA factuelle et continue d’être utilisé dans des travaux de comparaison ou pour l’évaluation initiale de modèles QA.

Peut-on combiner TREC-QA avec des modèles génératifs ?

Oui, même s’il est historiquement associé au ranking, on peut l’adapter pour tester des modèles génératifs comme GPT ou T5 en comparant les réponses générées à celles attendues.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.