7 votos

¿Hay cualquier teóricamente rigurosa justificación ¿por qué escalar o normalizar los datos debe mejorar el rendimiento estadístico?

Me preguntaba si había una rigurosa justificación teórica de por qué la normalización de la escala) la función de los vectores de sentido?

La razón por la que estoy pidiendo esto es debido a que, al menos en el caso de que cuando uno se decide a centro de los datos (es decir, restar fuera de la media), puede ser visto como la adición de un desplazamiento que no tiene penalización. Esta justificación tiene un sentido más restringido de la forma (yo no soy consciente de que cualquier generalización), pero esta justificación tiene sentido en el contexto de los cuadrados de las pérdidas, 2-norma de regularización y lineal kernel $K(x,x') = x^Tx' = \langle x, x' \rangle$.

Ha habido resultados similares en términos de la función de escalado o normalizaciones (características tienen norma 1 o a normalizar con respecto a las puntuaciones z $Z = \frac{X - \mu}{\sigma}$)?

Yo sé de un lugar a mano ondulado (pero bueno) justificaciones de por qué podría tener sentido. Estos explicación se puede encontrar en este video. Principalmente lo que me sacó de ello fue que la ampliación de ayuda para que las características están en el mismo rango u orden de magnitud. Esto ayuda, especialmente en el contexto de la regresión lineal y gradiente de la pendiente, porque de lo contrario, el gradiente de descenso podría saltar alrededor de la mínima en un torpe manera, si las características son en una escala diferente. Centrado ayuda porque incluso si la escala de las características, si no están en torno a "la misma" significa, entonces, la escala de la realidad no podría tener sentido (porque de esta compensación). La razón de por qué esto debería mejorar la estadística de rendimiento deben ser claros, algunos datos no se genera a partir de un desplazamiento del cero de la curva, así que es difícil generalizar si el desplazamiento no está presente. Estas explicaciones ya han sido discutidos en aquí.

Aparte de eso, no estoy seguro de por qué estos métodos de trabajo en general o por qué se debe llevar a buen generalizaciones.


Para las mentes curiosas voy a dar un esbozo de cómo ubicar el centro de datos es equivalente a no penalizar el desplazamiento y haciendo estándar empírica de minimización del riesgo. Vamos a la parte empírica de riesgo $\mathcal{E}_X(w,b)$ (para el conjunto de datos $X$) se define de la siguiente manera:

$$ \mathcal{E}_X(w,b) = \frac{1}{n} \sum^n_{i=1} ( w^T x_i + b - y_i)^2 + \lambda \| w \|^2$$

lo que queremos mostrar es que la solución a la minimización del riesgo empírico de los siguientes dos problemas de optimización son equivalentes

$$ \min_{w,b} \mathcal{E}_X(w,b) = \min_{w} \mathcal{E}_{X^c}(w)$$

donde $X^c$ es la centrada en el conjunto de entrenamiento.

Ya que el problema anterior es convexa, el mínimo global se logra cuando las pendientes son iguales a cero. En particular, se puede demostrar:

$$ \frac{\partial \mathcal{E}_X(w,b) }{\partial b} = 0 \iff b^* = \bar{y} - w^T\bar{x}$$

donde $\bar{x} = \frac{1}{n} \sum^n_{i=1} x_i$ $\bar{y} = \frac{1}{n} \sum^n_{i=1} y_i$ $b^*$ es el óptimo (no se penaliza) offset. Ahora, no es difícil mostrar que:

$$ \min_{w,b} \mathcal{E}_X(w,b) = \min_{w} \mathcal{E}_X(w,b^*) = \min_{w} \mathcal{E}_{X^c}(w)$$

lo que completa la prueba.

8voto

Marc Claesen Puntos 9818

En el contexto de los métodos del núcleo, esto es bastante fácil de ver. Cualquier matriz de datos $\mathbf{X}$ corresponde a un núcleo de la matriz $\mathbf{K}$, lo que a su vez corresponde a una solución de el problema de la formación que, debido a la convexidad, es único y garantizado para ser el óptimo global.

Sin embargo, si el cambio de $\mathbf{X}$ a $\mathbf{X}'$, a través de algún tipo de transformación, entonces tenemos un kernel diferente de la matriz $\mathbf{K}'$ y, evidentemente, una solución diferente. Menciono explícitamente esto, porque es importante darse cuenta de que la solución cambia cuando cambiamos $\mathbf{X}$, por ejemplo mediante la escala. La solución se encuentra todavía por resolver un problema convexo, y por lo tanto sigue siendo único y el óptimo global de su formación correspondiente problema (que es diferente para $\mathbf{K}$$\mathbf{K}'$).

La razón por la que hacemos escala, entonces, no tiene nada que ver con resolver el problema de optimización, sino más bien con la definición de la misma. Por simplicidad, supongamos que usamos el estándar lineal del núcleo: $$\kappa(\mathbf{u},\mathbf{v}) = \mathbf{u}^T\mathbf{v}$$ Si las características son diferentes escalas, es decir, la primera dimensión es en $[0, 10^{99}]$ y la segunda es en $[0, 1]$, entonces es fácil ver que en todos estos núcleo de las evaluaciones de la primera característica se dominan totalmente en el resultado de la distancia de las estimaciones (es decir, las entradas en el núcleo de la matriz está basada casi exclusivamente en la primera dimensión).

Cuando se inicia la construcción de un modelo, normalmente se desea dar a cada característica de aportar una contribución similar en el modelo, y para el núcleo de los métodos que implica que deben estar en la misma escala. Escala de ninguna manera garantiza un mejor desempeño de los modelos, pero por lo general es el mejor "antes de" que tiene. Por ejemplo, supongamos que la primera función en el ejemplo inventado anteriormente es de carácter informativo, mientras que la segunda no lo es, en este caso de salir de la primera función en una escala mucho más grande es mejor.

Otro ejemplo está disponible aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X