En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Medical Speech Transcription and Intent Dataset
Multimodal

Medical Speech Transcription and Intent Dataset

Dataset multimodal de plus de 8 heures d’énoncés audio couplés à leurs transcriptions textuelles sur des symptômes médicaux courants, idéal pour entraîner des systèmes de reconnaissance vocale médicale.

Télécharger le dataset
Taille

Plus de 8 heures d’audio en fichiers WAV, avec transcriptions associées au format CSV et texte.

Licence

Licence accessible via Figure Eight (Appen), usage sous conditions (voir description)

Description

Le dataset Medical Speech Transcription and Intent contient plusieurs milliers d’extraits audio décrivant des symptômes médicaux courants, accompagnés de leurs transcriptions textuelles. Il a été collecté via une plateforme collaborative et contient des variations naturelles de prononciation et de qualité.

À quoi sert ce dataset ?

  • Entraîner des modèles de reconnaissance vocale médicale
  • Détecter des intentions et symptômes exprimés oralement
  • Construire des assistants vocaux spécialisés en santé

Peut-on l’enrichir ou l’améliorer ?

Le dataset nécessite un nettoyage des labels et un contrôle qualité des audios. Il peut être enrichi avec des annotations supplémentaires comme l’identification des locuteurs, le bruit de fond ou la segmentation fine.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐✩✩ (Nécessite nettoyage et prétraitement audio)
🧼 Besoin de nettoyage⭐⭐✩✩✩ (Important : qualité variable, labels parfois erronés)
🏷️ Richesse des annotations⭐⭐⭐✩✩ (Moyenne : transcriptions et intentions, peu de métadonnées avancées)
📜 Licence commerciale⚖️ Usage sous conditions (Figure Eight/Appen)
👨‍💻 Idéal pour les débutants⚠️ Moyen, mieux avec une expérience audio
🔁 Réutilisable en fine-tuning🎯 Oui, pour ASR et NLP médical
🌍 Diversité culturelle⚠️ Non spécifiée, probablement limitée

🧠 Recommandé pour

  • Chercheurs en ASR médical
  • Développeurs d’assistants vocaux santé
  • Ingénieurs NLP

🔧 Outils compatibles

  • Kaldi
  • ESPnet
  • Hugging Face Transformers
  • Librosa

💡 Astuce

Effectuer un nettoyage rigoureux des labels avant entraînement pour améliorer les performances.

Questions fréquemment posées

Ce dataset inclut-il des annotations d’intentions pour les énoncés médicaux ?

Oui, chaque énoncé est associé à une intention liée à un symptôme médical spécifique.

Quelle est la qualité audio des fichiers inclus ?

La qualité audio varie, certains fichiers sont de mauvaise qualité et nécessitent un nettoyage.

Peut-on utiliser ce dataset pour entraîner un modèle de reconnaissance vocale généraliste ?

Il est spécifiquement orienté vers le domaine médical, mais peut servir de base pour un entraînement spécialisé.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.