Escala de características

La escala de características es un método que se utiliza para normalizar el rango de variables independientes o características de los datos. En el procesamiento de datos , también se conoce como normalización de datos y generalmente se realiza durante el paso de procesamiento previo de datos.

Motivación

Dado que el rango de valores de los datos sin procesar varía ampliamente, en algunos algoritmos de aprendizaje automático , las funciones objetivas no funcionarán correctamente sin la normalización . Por ejemplo, muchos clasificadores calculan la distancia entre dos puntos por la distancia euclidiana . Si una de las características tiene una amplia gama de valores, la distancia se regirá por esta característica en particular. Por lo tanto, el rango de todas las características debe normalizarse para que cada característica contribuya aproximadamente de manera proporcional a la distancia final.

Otra razón por la que se aplica el escalado de características es que el descenso de gradiente converge mucho más rápido con el escalado de características que sin él. ^[1]

También es importante aplicar la escala de características si la regularización se usa como parte de la función de pérdida (para que los coeficientes se penalicen de manera adecuada).

Métodos

Cambio de escala (normalización mínima-máxima)

También conocido como escalado mínimo-máximo o normalización mínimo-máximo, es el método más simple y consiste en reescalar el rango de características para escalar el rango en [0, 1] o [−1, 1]. La selección del rango objetivo depende de la naturaleza de los datos. La fórmula general para un mínimo-máximo de [0, 1] se da como:

{\ Displaystyle x '= {\ frac {x - {\ text {min}} (x)} {{\ text {max}} (x) - {\ text {min}} (x)}}}

dónde ${\ Displaystyle x}$ es un valor original, ${\ Displaystyle x '}$ es el valor normalizado. Por ejemplo, suponga que tenemos los datos de peso de los estudiantes y los pesos de los estudiantes abarcan [160 libras, 200 libras]. Para cambiar la escala de estos datos, primero restamos 160 del peso de cada estudiante y dividimos el resultado por 40 (la diferencia entre los pesos máximo y mínimo).

Para cambiar la escala de un rango entre un conjunto arbitrario de valores [a, b], la fórmula se convierte en:

{\ Displaystyle x '= a + {\ frac {(x - {\ text {min}} (x)) (ba)} {{\ text {max}} (x) - {\ text {min}} (x )}}}

dónde ${\ Displaystyle a, b}$ son los valores mínimo-máximo.

Normalización media

{\ Displaystyle x '= {\ frac {x - {\ text {promedio}} (x)} {{\ text {max}} (x) - {\ text {min}} (x)}}}

dónde ${\ Displaystyle x}$ es un valor original, ${\ Displaystyle x '}$ es el valor normalizado. Hay otra forma de normalización de medias que es cuando dividimos por la desviación estándar, que también se llama estandarización.

Estandarización (normalización de puntuación Z)

En el aprendizaje automático, podemos manejar varios tipos de datos, por ejemplo, señales de audio y valores de píxeles para datos de imagen, y estos datos pueden incluir múltiples dimensiones . La estandarización de características hace que los valores de cada característica en los datos tengan media cero (al restar la media en el numerador) y varianza unitaria. Este método se usa ampliamente para la normalización en muchos algoritmos de aprendizaje automático (por ejemplo, máquinas de vectores de soporte , regresión logística y redes neuronales artificiales ). ^[2]^{[ cita requerida ]} El método general de cálculo es determinar la media de distribución y la desviación estándar para cada característica. A continuación, restamos la media de cada característica. Luego dividimos los valores (la media ya se resta) de cada característica por su desviación estándar.

{\ Displaystyle x '= {\ frac {x - {\ bar {x}}} {\ sigma}}}

Dónde ${\ Displaystyle x}$ es el vector de características original, ${\ displaystyle {\ bar {x}} = {\ text {promedio}} (x)}$ es la media de ese vector de características, y ${\ Displaystyle \ sigma}$ es su desviación estándar.

Escala a la longitud de la unidad

Otra opción que se usa ampliamente en el aprendizaje automático es escalar los componentes de un vector de características de manera que el vector completo tenga una longitud. Esto generalmente significa dividir cada componente por la longitud euclidiana del vector:

{\ Displaystyle x '= {\ frac {x} {\ left \ | {x} \ right \ |}}}

En algunas aplicaciones (p. Ej., Características de histograma) puede ser más práctico utilizar la norma L ₁ (es decir, geometría de taxi ) del vector de características. Esto es especialmente importante si en los siguientes pasos de aprendizaje se utiliza la métrica escalar como medida de distancia. ^{[ ¿por qué? ]}

Solicitud

En el descenso de gradiente estocástico , el escalado de características a veces puede mejorar la velocidad de convergencia del algoritmo ^[2]^{[ cita requerida ]} . En máquinas de vectores de soporte, ^[3] puede reducir el tiempo para encontrar vectores de soporte. Tenga en cuenta que la escala de características cambia el resultado de SVM ^{[ cita requerida ]} .

Ver también

Normalización (estadísticas)
Puntuación estándar
fMLLR , espacio de características Regresión lineal de máxima verosimilitud

Referencias

^ Ioffe, Sergey; Christian Szegedy (2015). "Normalización por lotes: acelerar el entrenamiento de la red profunda reduciendo el cambio de covariables interno". arXiv : 1502.03167 [ cs.LG ].
^ ^a ^b Grus, Joel (2015). Ciencia de datos desde cero . Sebastopol, CA: O'Reilly. págs. 99, 100. ISBN 978-1-491-90142-7.
^ Juszczak, P .; Impuesto DMJ; RPW Dui (2002). "Característica de escala en descripciones de datos de vectores de soporte". Proc. 8th Annu. Conf. Adv. Computación escolar. Imágenes : 25-30. CiteSeerX 10.1.1.100.2524 .

Otras lecturas

Han, Jiawei; Kamber, Micheline; Pei, Jian (2011). "Transformación de datos y discretización de datos" . Minería de datos: conceptos y técnicas . Elsevier. págs. 111-118.

enlaces externos

Conferencia de Andrew Ng sobre la escala de características

[1] Ioffe, Sergey; Christian Szegedy (2015). "Normalización por lotes: acelerar el entrenamiento de la red profunda reduciendo el cambio de covariables interno". arXiv : 1502.03167 [ cs.LG ].

[:0-2] Grus, Joel (2015). Ciencia de datos desde cero . Sebastopol, CA: O'Reilly. págs. 99, 100. ISBN 978-1-491-90142-7.

[3] Juszczak, P .; Impuesto DMJ; RPW Dui (2002). "Característica de escala en descripciones de datos de vectores de soporte". Proc. 8th Annu. Conf. Adv. Computación escolar. Imágenes : 25-30. CiteSeerX 10.1.1.100.2524 .

[1]