One-Hot Encoding

La codificación one-hot es una técnica que convierte variables categóricas en vectores binarios. Cada categoría se representa con un vector en el que una posición toma el valor 1 y el resto permanecen en 0.

‍

Contexto
Muchos algoritmos de aprendizaje automático no pueden procesar directamente categorías nominales. La codificación one-hot evita introducir un orden ficticio y facilita que los modelos utilicen esta información de forma adecuada. Es especialmente común en NLP y sistemas de recomendación.

‍

Ejemplo
Variable “color” con tres categorías: rojo, verde, azul:

rojo → [1, 0, 0]
verde → [0, 1, 0]
azul → [0, 0, 1]

‍

Ventajas y limitaciones

✅ Método simple y ampliamente soportado.
✅ Representa categorías sin jerarquía.
❌ Si hay muchas categorías, los vectores se vuelven muy grandes (problema de dimensionalidad).
❌ Menos eficiente que los embeddings en vocabularios extensos.

‍

One-hot encoding is one of the most fundamental preprocessing techniques in machine learning. By representing categories as sparse binary vectors, it ensures that algorithms interpret each category as distinct and unrelated, rather than mistakenly inferring numerical order.

‍

La codificación one-hot es la forma más directa de convertir categorías en números comprensibles por una máquina, evitando que se interprete una relación de orden inexistente. Cada categoría es independiente, lo que facilita que el modelo las trate como opciones discretas y no comparables.

‍

No obstante, cuando el número de categorías es muy elevado —como en un vocabulario de miles de palabras o en sistemas de recomendación con millones de productos— los vectores resultan muy dispersos y costosos en memoria. Este es el principal motivo por el cual se prefieren técnicas modernas como los embeddings, que logran representar la información en espacios continuos más compactos y con capacidad de capturar similitudes.

‍

A pesar de estas limitaciones, el one-hot sigue siendo una técnica simple, transparente y útil, ideal en casos con pocas categorías o como punto de partida en tareas de aprendizaje automático.

‍

📚 Referencias

Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow.