81 votos

¿Cómo y por qué la normalización y la función de escalado de trabajo?

Veo que muchos de los algoritmos de aprendizaje automático funcione mejor con una media de cancelación y la covarianza de ecualización. Por ejemplo, las Redes Neuronales tienden a converger más rápido, y K-Significa por lo general se le da mejor la agrupación con el pre-procesado de las características. No veo la intuición detrás de estos pre-procesamiento de los pasos que conducen a la mejora de rendimiento. Puede alguien explicar esto a mí?

55voto

karatchov Puntos 230

Es cierto que el preprocesamiento en el aprendizaje de máquina es algo muy negro art. Esto no está escrito en los papeles de un montón por qué varios pasos de preprocesamiento son esenciales para hacer que funcione. No estoy seguro de si se entiende en cada caso. Para hacer las cosas más complicadas, que depende en gran medida del método de uso y también en el dominio del problema.

Algunos métodos están transformación afín invariante. Si usted tiene una red neuronal y sólo hay que aplicar una transformación afín a sus datos, la red no perder o ganar algo en la teoría. En la práctica, sin embargo, una red neuronal funciona mejor si las entradas están centradas y blanco. Eso significa que su covarianza es la diagonal y la media es el vector cero. ¿Por qué mejorar las cosas? Es sólo debido a la optimización de la red neuronal obras más gracia, desde el oculto funciones de activación no saturar el ayuno y por lo tanto no te dan cerca de cero gradientes de manera temprana en el aprendizaje.

Otros métodos, por ejemplo, K-means, que podría dar totalmente diferentes soluciones dependiendo del preprocesamiento. Esto es debido a una transformación afín implica un cambio en la métrica del espacio: la distancia Euclidiana entre dos muestras será diferente después de esa transformación.

Al final del día, usted quiere entender lo que le están haciendo a los datos. E. g. el blanqueamiento en la visión por ordenador y muestra sabio normalización es algo que el cerebro humano, así como en su visión de la tubería.

25voto

loco41211 Puntos 119

Es simplemente un caso de obtener todos los datos en la misma escala: si las escalas para diferentes características son totalmente diferentes, esto puede tener un efecto de arrastre en su capacidad de aprender (dependiendo de qué métodos utilizas para hacerlo). Garantizar normalizado de los valores de la característica implícita de los pesos de todas las características tanto en su representación.

9voto

JanithaR Puntos 141

Hay dos cuestiones distintas:

a) el aprendizaje de la función derecha por ejemplo k-means: la escala de entrada, básicamente, especifica la similitud, por lo que los clusters encontrados dependen de la escala. regularización - por ejemplo, l2 pesos de regularización - usted asume cada peso debe ser "igual de pequeño"- si los datos no están a escala "adecuadamente" este no será el caso

b) la optimización , es decir, por el gradiente de la pendiente ( por ejemplo, la mayoría de las redes neuronales). Para el gradiente de la pendiente, lo que necesita para elegir el ritmo de aprendizaje...pero una buena tasa de aprendizaje ( al menos en la 1ª capa oculta) depende de la entrada de la escala : el pequeño [pertinentes] las entradas normalmente requieren de mayores pesos, así como la mayor tasa de aprendizaje para aquellos de peso ( para llegar más rápido), y v. v para grandes entradas... ya que usted sólo desea utilizar una única tasa de aprendizaje, cambiar la escala de sus entradas. ( y blanqueamiento es decir decorellating también es importante por la misma razón)

1voto

Vijay Puntos 11

Estoy terminando Geoffrey Hinton de Redes Neuronales para el Aprendizaje de Máquina en Coursera, y él explica en la lección 6b: "Una bolsa de trucos para el mini-lote de gradiente de la pendiente." Usted puede previsualizar el vídeo sin necesidad de registrarse o iniciar sesión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X