Me preguntaba si había una rigurosa justificación teórica de por qué la normalización de la escala) la función de los vectores de sentido?
La razón por la que estoy pidiendo esto es debido a que, al menos en el caso de que cuando uno se decide a centro de los datos (es decir, restar fuera de la media), puede ser visto como la adición de un desplazamiento que no tiene penalización. Esta justificación tiene un sentido más restringido de la forma (yo no soy consciente de que cualquier generalización), pero esta justificación tiene sentido en el contexto de los cuadrados de las pérdidas, 2-norma de regularización y lineal kernel $K(x,x') = x^Tx' = \langle x, x' \rangle$.
Ha habido resultados similares en términos de la función de escalado o normalizaciones (características tienen norma 1 o a normalizar con respecto a las puntuaciones z $Z = \frac{X - \mu}{\sigma}$)?
Yo sé de un lugar a mano ondulado (pero bueno) justificaciones de por qué podría tener sentido. Estos explicación se puede encontrar en este video. Principalmente lo que me sacó de ello fue que la ampliación de ayuda para que las características están en el mismo rango u orden de magnitud. Esto ayuda, especialmente en el contexto de la regresión lineal y gradiente de la pendiente, porque de lo contrario, el gradiente de descenso podría saltar alrededor de la mínima en un torpe manera, si las características son en una escala diferente. Centrado ayuda porque incluso si la escala de las características, si no están en torno a "la misma" significa, entonces, la escala de la realidad no podría tener sentido (porque de esta compensación). La razón de por qué esto debería mejorar la estadística de rendimiento deben ser claros, algunos datos no se genera a partir de un desplazamiento del cero de la curva, así que es difícil generalizar si el desplazamiento no está presente. Estas explicaciones ya han sido discutidos en aquí.
Aparte de eso, no estoy seguro de por qué estos métodos de trabajo en general o por qué se debe llevar a buen generalizaciones.
Para las mentes curiosas voy a dar un esbozo de cómo ubicar el centro de datos es equivalente a no penalizar el desplazamiento y haciendo estándar empírica de minimización del riesgo. Vamos a la parte empírica de riesgo $\mathcal{E}_X(w,b)$ (para el conjunto de datos $X$) se define de la siguiente manera:
$$ \mathcal{E}_X(w,b) = \frac{1}{n} \sum^n_{i=1} ( w^T x_i + b - y_i)^2 + \lambda \| w \|^2$$
lo que queremos mostrar es que la solución a la minimización del riesgo empírico de los siguientes dos problemas de optimización son equivalentes
$$ \min_{w,b} \mathcal{E}_X(w,b) = \min_{w} \mathcal{E}_{X^c}(w)$$
donde $X^c$ es la centrada en el conjunto de entrenamiento.
Ya que el problema anterior es convexa, el mínimo global se logra cuando las pendientes son iguales a cero. En particular, se puede demostrar:
$$ \frac{\partial \mathcal{E}_X(w,b) }{\partial b} = 0 \iff b^* = \bar{y} - w^T\bar{x}$$
donde $\bar{x} = \frac{1}{n} \sum^n_{i=1} x_i$ $\bar{y} = \frac{1}{n} \sum^n_{i=1} y_i$ $b^*$ es el óptimo (no se penaliza) offset. Ahora, no es difícil mostrar que:
$$ \min_{w,b} \mathcal{E}_X(w,b) = \min_{w} \mathcal{E}_X(w,b^*) = \min_{w} \mathcal{E}_{X^c}(w)$$
lo que completa la prueba.