20 votos

Necesidad de centrar y normalizar los datos en la regresión

Consideremos la regresión lineal con cierta regularización: Por ejemplo, hallar $x$ que minimiza $||Ax - b||^2+\lambda||x||_1$

Normalmente, las columnas de A están estandarizadas para tener media cero y norma unitaria, mientras que $b$ se centra para tener media cero. Quiero asegurarme de que entiendo correctamente la razón por la que se estandariza y se centra.

Al hacer que los medios de columnas de $A$ y $b$ cero, ya no necesitamos un término de intercepción. De lo contrario, el objetivo habría sido $||Ax-x_01-b||^2+\lambda||x||_1$ . Al hacer que las normas de las columnas de A sean iguales a 1, eliminamos la posibilidad de que una columna de A tenga una norma muy alta y, por tanto, un coeficiente bajo en A. $x$ lo que podría llevarnos a concluir erróneamente que esa columna de A no "explica" $x$ Bien.

Este razonamiento no es exactamente riguroso pero, intuitivamente, ¿es la forma correcta de pensar?

16voto

bheklilr Puntos 113

Tienes razón en lo de poner a cero las medias de las columnas de $A$ y $b$ .

Sin embargo, en cuanto al ajuste de las normas de las columnas de $A$ considere lo que pasaría si empezara con una norma $A$ y todos los elementos de $x$ eran aproximadamente de la misma magnitud. Entonces multipliquemos una columna por, digamos, $10^{-6}$ . El elemento correspondiente de $x$ en una regresión no regularizada, se incrementaría en un factor de $10^6$ . ¿Ves lo que pasaría con el término de regularización? A efectos prácticos, la regularización sólo se aplicaría a ese coeficiente.

Normalizando las columnas de $A$ Nosotros, escribiendo intuitivamente, los ponemos a todos en la misma escala. En consecuencia, las diferencias en las magnitudes de los elementos de $x$ están directamente relacionadas con la "ondulación" de la función explicativa ( $Ax$ ), que es, en términos generales, lo que la regularización intenta controlar. Sin ella, un valor de coeficiente de, por ejemplo, 0,1 frente a otro de 10,0 le diría, en ausencia de conocimiento sobre $A$ nada sobre qué coeficiente contribuía más a la "ondulación" de la $Ax$ . (Para una función lineal, como $Ax$ La "ondulación" está relacionada con la desviación de 0).

Volviendo a su explicación, si una columna de $A$ tiene una norma muy alta, y por alguna razón obtiene un coeficiente bajo en $x$ no llegaríamos a la conclusión de que la columna de $A$ no "explica" $x$ Bien. $A$ no "explica" $x$ en absoluto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X