En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Conjunto de datos TED-LIUM
Audio

Conjunto de datos TED-LIUM

El conjunto de datos TED-LIUM incluye grabaciones de audio de conferencias TED acompañadas de sus transcripciones. Es un recurso valioso para la formación de modelos de reconocimiento automático de voz (ASR) y para el análisis del lenguaje oral en un contexto real y estructurado.

Obtén el dataset
Tamaño

Varios cientos de horas de grabaciones, formatos WAV (audio) y TXT (transcripciones)

Licencia

Acceso gratuito para la investigación bajo una licencia permisiva (Creative Commons BY-NC-SA para grabaciones de TED)

Descripción


El conjunto de datos contiene:

  • Grabaciones de cientos de charlas TED (de TED.com)
  • Las transcripciones se alinearon palabra por palabra
  • Gran diversidad de ponentes, acentos y temas (educación, tecnología, sociedad...)
  • Calidad de audio profesional (capturada en la habitación con un micrófono tipo lavalier)
  • Varias versiones sucesivas (v1, v2, v3) con alineaciones mejoradas y enriquecimiento del corpus

A menudo se usa para proyectos de transcripción, traducción automática o investigación lingüística.

¿Para qué sirve este conjunto de datos?


El TED-LIUM se utiliza para:

  • Entrenamiento de modelos de transcripción automática de voz (Wav2Vec, Whisper...)
  • Generación de subtítulos multilingües para contenido de vídeo
  • Análisis estilístico o léxico del lenguaje oral
  • El estudio de la dinámica prosódica y los marcadores discursivos
  • Entrenamiento de modelos multimodales que combinan audio, texto y vídeo

¿Se puede enriquecer o mejorar?


Sí, en particular mediante:

  • La adición de etiquetas emocionales, prosódicas o lingüísticas
  • Combinación con vídeos TED para enfoques audiovisuales
  • Alineación temporal más precisa para tareas de segmentación precisa
  • El mestizaje con otras fuentes del discurso público (por ejemplo, LibriVox, Mozilla Common Voice)

🔗 Fuente: Conjunto de datos TED-LIUM

Preguntas frecuentes

¿Las grabaciones son multilingües?

No, el conjunto de datos está principalmente en inglés, aunque existen proyectos paralelos de TEDx en otros idiomas.

¿Cuál es la ventaja de este conjunto de datos en comparación con LibriSpeech?

TED-LIUM ofrece un lenguaje oral más natural y variado que LibriSpeech, que se basa en la lectura. Por lo tanto, se acerca más a las condiciones reales en las que se usa el habla.

¿Se puede usar para detectar temas o sentimientos?

Sí, las charlas TED cubren temas diversos y cargados de emociones, lo que las convierte en un buen medio para el análisis del discurso temático o emocional.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.