Medical Speech Transcription and Intent Dataset

Dataset multimodal de plus de 8 heures d’énoncés audio couplés à leurs transcriptions textuelles sur des symptômes médicaux courants, idéal pour entraîner des systèmes de reconnaissance vocale médicale.

Télécharger le dataset

Taille

Plus de 8 heures d’audio en fichiers WAV, avec transcriptions associées au format CSV et texte.

Licence

Licence accessible via Figure Eight (Appen), usage sous conditions (voir description)

Description

‍

Le dataset Medical Speech Transcription and Intent contient plusieurs milliers d’extraits audio décrivant des symptômes médicaux courants, accompagnés de leurs transcriptions textuelles. Il a été collecté via une plateforme collaborative et contient des variations naturelles de prononciation et de qualité.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de reconnaissance vocale médicale
Détecter des intentions et symptômes exprimés oralement
Construire des assistants vocaux spécialisés en santé

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Le dataset nécessite un nettoyage des labels et un contrôle qualité des audios. Il peut être enrichi avec des annotations supplémentaires comme l’identification des locuteurs, le bruit de fond ou la segmentation fine.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐✩✩ (Nécessite nettoyage et prétraitement audio)
🧼 Besoin de nettoyage	⭐⭐✩✩✩ (Important : qualité variable, labels parfois erronés)
🏷️ Richesse des annotations	⭐⭐⭐✩✩ (Moyenne : transcriptions et intentions, peu de métadonnées avancées)
📜 Licence commerciale	⚖️ Usage sous conditions (Figure Eight/Appen)
👨‍💻 Idéal pour les débutants	⚠️ Moyen, mieux avec une expérience audio
🔁 Réutilisable en fine-tuning	🎯 Oui, pour ASR et NLP médical
🌍 Diversité culturelle	⚠️ Non spécifiée, probablement limitée

‍

🧠 Recommandé pour

Chercheurs en ASR médical
Développeurs d’assistants vocaux santé
Ingénieurs NLP

‍

🔧 Outils compatibles

Kaldi
ESPnet
Hugging Face Transformers
Librosa

‍

💡 Astuce

Effectuer un nettoyage rigoureux des labels avant entraînement pour améliorer les performances.

Questions fréquemment posées

Ce dataset inclut-il des annotations d’intentions pour les énoncés médicaux ?

Oui, chaque énoncé est associé à une intention liée à un symptôme médical spécifique.

Quelle est la qualité audio des fichiers inclus ?

La qualité audio varie, certains fichiers sont de mauvaise qualité et nécessitent un nettoyage.

Peut-on utiliser ce dataset pour entraîner un modèle de reconnaissance vocale généraliste ?

Il est spécifiquement orienté vers le domaine médical, mais peut servir de base pour un entraînement spécialisé.

Datasets similaires

Multimodal

RL Mixed Dataset – Images et problèmes mathématiques pour apprentissage par renforcement

Image

DOTA (Dataset for Object Detection in Aerial Images)

Image

Cattle Weight Detection Model Dataset 12k