412 votos

Cuando se realiza una regresión múltiple, ¿cuándo debes centrar tus variables predictoras y cuándo debes estandarizarlas?

En algunas literaturas, he leído que una regresión con múltiples variables explicativas, si están en diferentes unidades, necesitan ser estandarizadas. (Estandarizar consiste en restar la media y dividir por la desviación estándar.) ¿En qué otros casos necesito estandarizar mis datos? ¿Hay casos en los que solo debería centrar mis datos (es decir, sin dividir por la desviación estándar)?

15 votos

Una publicación relacionada en el blog de Andrew Gelman.

55 votos

Además de las excelentes respuestas ya dadas, permítanme mencionar que al usar métodos de penalización como la regresión ridge o lasso, el resultado ya no es invariante a la estandarización. Sin embargo, muchas veces se recomienda estandarizar. En este caso, no por razones directamente relacionadas con las interpretaciones, sino porque la penalización tratará a diferentes variables explicativas en una misma línea más equitativa.

7 votos

¡Bienvenido al sitio @mathieu_r! Has publicado dos preguntas muy populares. ¡Por favor considera votar a favor/aceptar algunas de las excelentes respuestas que has recibido a ambas preguntas ;)

298voto

Niall Puntos 51

En regresión, a menudo se recomienda centrar las variables para que los predictores tengan una media $0$. Esto hace más fácil interpretar el término de intercepción como el valor esperado de $Y_i$ cuando los valores de los predictores se establecen en sus medias. De lo contrario, la intercepción se interpreta como el valor esperado de $Y_i$ cuando los predictores se establecen en 0, lo cual puede no ser una situación realista o interpretable (por ejemplo, ¿qué pasa si los predictores fueran la altura y el peso?). Otra razón práctica para escalar en regresión es cuando una variable tiene una escala muy grande, por ejemplo, si estuvieras usando el tamaño de la población de un país como predictor. En ese caso, los coeficientes de regresión pueden tener un orden de magnitud muy pequeño (por ejemplo, $10^{-6}$) lo cual puede ser un poco molesto al leer la salida de la computadora, por lo que puedes convertir la variable a, por ejemplo, tamaño de población en millones. La convención de estandarizar predicciones principalmente existe para que las unidades de los coeficientes de regresión sean las mismas.

Como @gung sugiere y @MånsT muestra explícitamente (+1 a ambos, por cierto), centrar/escalar no afecta tu inferencia estadística en modelos de regresión - las estimaciones se ajustan adecuadamente y los $p$-valores serán los mismos.

Otras situaciones donde centrar y/o escalar pueden ser útiles:

  • cuando estás tratando de sumar o promediar variables que están en escalas diferentes, tal vez para crear un puntaje compuesto de algún tipo. Sin escalar, puede ser el caso que una variable tenga un impacto mayor en la suma debido puramente a su escala, lo cual puede ser indeseable.

  • Para simplificar cálculos y notación. Por ejemplo, la matriz de covarianza de muestra de una matriz de valores centrados por sus medias de muestra es simplemente $X'X$. De manera similar, si una variable aleatoria univariada $X$ ha sido centrada por su media, entonces ${\rm var}(X) = E(X^2)$ y la varianza se puede estimar a partir de una muestra observando la media de los cuadrados de los valores observados.

  • Relacionado con lo anterior, PCA solo se puede interpretar como la descomposición en valores singulares de una matriz de datos cuando las columnas han sido primero centradas por sus medias.

Nota que escalar no es necesario en los dos últimos puntos que mencioné y que centrar puede no ser necesario en el primer punto que mencioné, por lo que los dos no necesitan ir de la mano en todo momento.

6 votos

+1, estos son buenos puntos que no había considerado. Para mayor claridad, permítame enumerar algunos ejemplos concretos en los que un investigador podría querer combinar variables explicativas antes de ejecutar una regresión, y por lo tanto necesitar estandarizar. Un caso podría ser para investigaciones sobre trastornos del comportamiento en niños; los investigadores podrían obtener calificaciones tanto de los padres como de los maestros, y luego querer combinarlas en una única medida de desajuste. Otro caso podría ser un estudio sobre el nivel de actividad en una residencia de ancianos con autoevaluaciones de los residentes y el número de firmas en las hojas de inscripción para actividades.

2 votos

Pero ¿no deberíamos teóricamente usar la media y la desviación estándar de la población para la centralización/escalado? ¿En la práctica, es tan simple como usar la media/mD de la muestra o hay más en ello?

5 votos

Para mayor completitud, permíteme agregar a esta excelente respuesta que $X'X$ de la matriz $X$ centrada y estandarizada es la matriz de correlación.

195voto

Sean Hanley Puntos 2428

Te has topado con una creencia común. Sin embargo, en general, no necesitas centrar o estandarizar tus datos para la regresión múltiple. Las diferentes variables explicativas casi siempre están en diferentes escalas (es decir, medidas en diferentes unidades). Esto no es un problema; los betas se estiman de manera que convierten las unidades de cada variable explicativa en las unidades de la variable de respuesta adecuadamente. Una cosa que a veces la gente dice es que si has estandarizado primero tus variables, entonces puedes interpretar los betas como medidas de importancia. Por ejemplo, si $\beta_1=.6$, y $\beta_2=.3$, entonces la primera variable explicativa es dos veces más importante que la segunda. Aunque esta idea es atractiva, desafortunadamente, no es válida. Hay varios problemas, pero tal vez el más fácil de seguir es que no tienes forma de controlar posibles restricciones de rango en las variables. Inferir la 'importancia' de diferentes variables explicativas en relación unas con otras es un problema filosófico muy complejo. Nada de eso sugiere que estandarizar sea mal o incorrecto, simplemente que típicamente no es necesario.

El único caso que se me ocurre rápidamente donde centrar es útil es antes de crear términos de potencia. Supongamos que tienes una variable, $X$, que varía entre 1 y 2, pero sospechas una relación curvilínea con la variable de respuesta, y quieres crear un término $X^2$. Si no centras $X$ primero, tu término al cuadrado estará altamente correlacionado con $X$, lo que podría confundir la estimación del beta. Centrar primero aborda este problema.


(Actualización añadida mucho después:) Un caso análogo que olvidé mencionar es la creación de términos de interacción. Si se crea un término de interacción/producto a partir de dos variables que no están centradas en 0, se inducirá cierta cantidad de colinealidad (con la cantidad exacta dependiendo de varios factores). Centrar primero aborda este problema potencial. Para una explicación más completa, consulta esta excelente respuesta de @Affine: Diagnostics de colinealidad problemáticos solo cuando se incluye el término de interacción.

16 votos

Si alguien está interesado, también hablo sobre la idea errónea de usar betas estandarizados para inferir la 'importancia' relativa aquí: multiple-linear-regression-for-hypothesis-testing

11 votos

Belsley, Kuh y Welsch tienen un análisis detallado de esta situación en su libro de 1980 Regresión Diagnóstica. (Ver Apéndice 3B para más detalles). Concluyen que estás incorrecto al creer que la reescala no ayuda. Su análisis se basa en la estabilidad numérica del procedimiento de solución, que se mide en términos del número de condición de la matriz de datos $X$. Ese número de condición puede ser muy alto cuando las variables se miden en escalas con rangos dispares. La reescala entonces absorberá la mayor parte de la "maldad" en $X$ dentro de los factores de escala. El problema resultante estará mucho mejor condicionado.

1 votos

Acerca de beta1=0.6 y beta2=0.3, no estoy seguro de si decir que beta1 es dos veces más importante que beta2 es apropiado, pero pensé que dado que están estandarizadas están en la misma 'escala', es decir, las unidades son desviaciones estándar de la media. Dicho esto, la respuesta de Y será dos veces mayor en el caso de beta1 (manteniendo x2 constante) que para beta2 (manteniendo x1 constante). ¿Verdad? ¿O he malinterpretado algo en el camino?

94voto

phloopy Puntos 4285

Además de los comentarios en otras respuestas, me gustaría señalar que la escala y ubicación de las variables explicativas no afecta la validez del modelo de regresión de ninguna manera.

Considera el modelo $y=\beta_0+\beta_1x_1+\beta_2x_2+\ldots+\epsilon$.

Los estimadores de mínimos cuadrados de $\beta_1, \beta_2,\ldots$ no se ven afectados por el desplazamiento. La razón es que estos son las pendientes de la superficie de ajuste, es decir, cuánto cambia la superficie si cambias $x_1, x_2,\ldots$ en una unidad. Esto no depende de la ubicación. (Sin embargo, el estimador de $\beta_0$ sí lo hace.)

Al observar las ecuaciones de los estimadores puedes ver que escalar $x_1$ con un factor $a$ escala $\hat{\beta}_1$ con un factor $1/a. Para ver esto, nota que

$$\hat{\beta}_1(x_1)=\frac{\sum_{i=1}^n(x_{1,i}-\bar{x}_1)(y_i-\bar{y})}{\sum_{i=1}^n(x_{1,i}-\bar{x}_1)^2}.$$

Así que

$$\hat{\beta}_1(ax_1)=\frac{\sum_{i=1}^n(ax_{1,i}-a\bar{x}_1)(y_i-\bar{y})}{\sum_{i=1}^n(ax_{1,i}-a\bar{x}_1)^2}=\frac{a\sum_{i=1}^n(x_{1,i}-\bar{x}_1)(y_i-\bar{y})}{a^2\sum_{i=1}^n(x_{1,i}-\bar{x}_1)^2}=\frac{\hat{\beta}_1(x_1)}{a}.$$

Observando la fórmula correspondiente para $\hat{\beta}_2$ (por ejemplo), es (o debería ser) claro que esta escala no afecta a los estimadores de las otras pendientes.

Por lo tanto, la escala simplemente corresponde a escalar las pendientes correspondientes.

Como señala gung, a algunas personas les gusta reescalar mediante la desviación estándar con la esperanza de ser capaces de interpretar qué tan "importantes" son las diferentes variables. Aunque esta práctica puede ser cuestionada, se puede notar que esto corresponde a elegir $a_i=1/s_i$ en los cálculos anteriores, donde $s_i$ es la desviación estándar de $x_1$ (lo cual es algo extraño de decir en primer lugar, ya que se supone que los $x_i$ son determinísticos).

1 votos

¿Es una buena idea estandarizar variables que están muy sesgadas o es mejor estandarizar variables simétricamente distribuidas? ¿Deberíamos estandarizar solo las variables de entrada o también los resultados?

0 votos

Esta prueba es solo para regresión lineal simple. No se generaliza a dimensiones superiores, pero es bastante simple de mostrar a partir de la fórmula de regresión lineal mútliple para $\hat{\beta}$, de donde viene el factor recíproco.

43voto

alastairs Puntos 3281

En caso de que utilices el descenso de gradiente para ajustar tu modelo, estandarizar las covariables puede acelerar la convergencia (porque cuando tienes covariables no escaladas, los parámetros correspondientes pueden dominar inapropiadamente el gradiente). Para ilustrar esto, aquí tienes un poco de código en R:

> objetivo <- function(par){ par[1]^2+par[2]^2}  # función cuadrática en dos variables con un mínimo en (0,0)
> optim(c(10,10), objetivo, method="BFGS")$counts  # devuelve el número de veces que la función y su gradiente tuvieron que ser evaluados hasta la convergencia
    función gradiente 
          12        3 
> objetivo2 <- function(par){ par[1]^2+0.1*par[2]^2}  # una transformación de la función anterior, correspondiente a covariables no escaladas
> optim(c(10,10), objetivo2, method="BFGS")$counts
función gradiente 
      19       10 
> optim(c(10,1), objetivo2, method="BFGS")$counts  # la escala de los parámetros iniciales no te lleva de vuelta al rendimiento original
función gradiente 
      12        8

También, para algunas aplicaciones de SVMs, escalar puede mejorar el rendimiento predictivo: Escalado de características en la descripción de datos de soporte vectorial.

0 votos

En cuanto al último punto, esto también se aplica a otros modelos además de las SVM. Por ejemplo, en el caso del k-Nearest Neighbor, si no estandarizamos las características (es decir, covariables), la métrica de distancia estará dominada por aquellas con una escala más grande, lo que potencialmente disminuirá el rendimiento del modelo.

0 votos

De acuerdo. Especialmente en MCMC, puedes obtener resultados realmente extraños (que no convergen) si no escalas. Eventualmente puedes converger, pero la vida es demasiado corta para esperar a que esto suceda.

32voto

cbeleites Puntos 12461

Prefiero "razones sólidas" tanto para el centrado como para la estandarización (que existen con mucha frecuencia). En general, tienen más que ver con el conjunto de datos y el problema que con el método de análisis de datos.

Muchas veces, prefiero centrar (es decir, desplazar el origen de los datos) en otros puntos que son físicamente/químicamente/biológicamente/... más significativos que la media (ver también la respuesta de Macro), por ejemplo.

  • la media de un grupo de control

  • la señal en blanco

La estabilidad numérica es una razón relacionada con el algoritmo para centrar y/o escalar datos.

También echa un vistazo a la pregunta similar sobre la estandarización. Que también incluye "solo centrado".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X