Conjunto de datos TED-LIUM

El conjunto de datos TED-LIUM incluye grabaciones de audio de conferencias TED acompañadas de sus transcripciones. Es un recurso valioso para la formación de modelos de reconocimiento automático de voz (ASR) y para el análisis del lenguaje oral en un contexto real y estructurado.

Obtén el dataset

Tamaño

Varios cientos de horas de grabaciones, formatos WAV (audio) y TXT (transcripciones)

Licencia

Acceso gratuito para la investigación bajo una licencia permisiva (Creative Commons BY-NC-SA para grabaciones de TED)

Descripción

‍
El conjunto de datos contiene:

Grabaciones de cientos de charlas TED (de TED.com)
Las transcripciones se alinearon palabra por palabra
Gran diversidad de ponentes, acentos y temas (educación, tecnología, sociedad...)
Calidad de audio profesional (capturada en la habitación con un micrófono tipo lavalier)
Varias versiones sucesivas (v1, v2, v3) con alineaciones mejoradas y enriquecimiento del corpus

‍

A menudo se usa para proyectos de transcripción, traducción automática o investigación lingüística.

‍

¿Para qué sirve este conjunto de datos?

‍
El TED-LIUM se utiliza para:

Entrenamiento de modelos de transcripción automática de voz (Wav2Vec, Whisper...)
Generación de subtítulos multilingües para contenido de vídeo
Análisis estilístico o léxico del lenguaje oral
El estudio de la dinámica prosódica y los marcadores discursivos
Entrenamiento de modelos multimodales que combinan audio, texto y vídeo

‍

¿Se puede enriquecer o mejorar?

‍
Sí, en particular mediante:

La adición de etiquetas emocionales, prosódicas o lingüísticas
Combinación con vídeos TED para enfoques audiovisuales
Alineación temporal más precisa para tareas de segmentación precisa
El mestizaje con otras fuentes del discurso público (por ejemplo, LibriVox, Mozilla Common Voice)

‍

🔗 Fuente: Conjunto de datos TED-LIUM

‍

Preguntas frecuentes

¿Las grabaciones son multilingües?

No, el conjunto de datos está principalmente en inglés, aunque existen proyectos paralelos de TEDx en otros idiomas.

¿Cuál es la ventaja de este conjunto de datos en comparación con LibriSpeech?

TED-LIUM ofrece un lenguaje oral más natural y variado que LibriSpeech, que se basa en la lectura. Por lo tanto, se acerca más a las condiciones reales en las que se usa el habla.

¿Se puede usar para detectar temas o sentimientos?

Sí, las charlas TED cubren temas diversos y cargados de emociones, lo que las convierte en un buen medio para el análisis del discurso temático o emocional.

Otros datasets

Texto

Conjunto de datos del censo estadounidense

Imagen

Detección de fraudes en moda de lujo (LFFD) de Innovatiana

Texto

SFT General Knowledge – Dataset para LLM