2 votos

No estandarizado $\beta_0$ y $\beta_1$ Cuando ambos $X$ y $Y$ están estandarizados

En un modelo de regresión lineal univariante, entiendo que la pendiente no estandarizada para el predictor estandarizado $z=(x - \mu)/\sigma$ es igual a $\beta_1 \sigma_y / \sigma_x$ pero me pregunto cuál es la pendiente cuando $y$ también está normalizado? ¿Qué pasa con el término constante cuando $y$ ¿está estandarizado?

A continuación se muestran algunos resultados de las regresiones:

  • regresión de la estandarización $y$ sobre la estandarización $x$ : $\beta_{0}=0$ y $\beta_{1}=0.5585$
  • regresión de la no estandarizada $y$ en la versión no estandarizada $x$ : $\beta_{0}=0.338$ y $\beta_{1}=1.556$ .
  • media y sigma de $x$ son $\bar{x}=0.206$ y $\sigma_x=1.047$
  • media y sigma de $y$ son $\bar{y}=0.661$ y $\sigma_y=2.934$

El uso del típico

$ \beta_{unstd}=\beta_1 \left( \frac{\sigma_y}{\sigma_x} \right) $

$ 1.565=0.5585 \left( \frac{2.934}{1.047} \right) $

que está cerca, pero no es igual a 1,556. Sin embargo, no estoy seguro de que esta relación típica se mantenga si $y$ también está normalizado(?).

2voto

Dario Castañé Puntos 131

En la regresión simple, cuando $Y$ también se estandariza, además de estandarizar en $X$ la pendiente se convierte simplemente en el coeficiente de correlación de la muestra entre $X$ y $Y$ , $S_{X,Y}$ . Para ver esto, observe lo siguiente:

En la regresión simple, no hay un término constante en el modelo, por lo que éste es siempre cero (es decir $\hat{\beta}_0=0$ ). Para determinar la forma de la pendiente, tenemos que establecer la notación y luego hacer el álgebra. En el modelo estandarizado, como no hay término de intercepción, la matriz del modelo es simplemente un vector de su $X$ -(es decir, no hay ninguna columna de 1 que represente el término de intercepción en la regresión no estandarizada). En otras palabras, $\boldsymbol{X}$ aquí hay un vector 1-D de su estandarizado $X$ -valores:

\begin{eqnarray*} \boldsymbol{X} & = & \frac{1}{S_{X}}\begin{bmatrix}X_{1}-X\\ X_{2}-\bar{X}\\ \vdots\\ X_{n}-\bar{X} \end{bmatrix} \end{eqnarray*}

Dónde $S_x$ es la desviación estándar de la muestra del $X$ -valores. Se demuestra fácilmente que:

\begin{eqnarray} \boldsymbol{X^{\prime}X} & = & \boldsymbol{r_{XX}} \end{eqnarray}

donde $\boldsymbol{r_{XX}}$ es la matriz de correlación. Pero como siempre hay una correlación perfecta entre $X$ y ella misma es 1, $\boldsymbol{r_{XX}}=1$ .

Ahora, las ecuaciones normales de mínimos cuadrados se escriben como

\begin{eqnarray*} \boldsymbol{X^{\prime}X}\boldsymbol{b} & = & \boldsymbol{X^{\prime}Y} \end{eqnarray*}

o utilizando el resultado anterior, que $\boldsymbol{X^{\prime}X}=\boldsymbol{r_{XX}}=1$ Esto se reduce a:

\begin{eqnarray*} \boldsymbol{b} & = & \boldsymbol{X^{\prime}Y} \end{eqnarray*}

Así que todo lo que queda por hacer es encontrar la forma de $\boldsymbol{X^{\prime}Y}$ para obtener la estimación de $\hat{\beta_1}$ .

\begin{eqnarray*} \boldsymbol{X^{\prime}Y} & = & \frac{1}{S_{X}}\begin{bmatrix}X_{1}-\bar{X} & X_{2}-\bar{X} & \cdots & X_{n}-\bar{X}\end{bmatrix}\frac{1}{S_{Y}}\begin{bmatrix}Y_{1} -Y\\ Y_{2}-\bar{Y}\N- Y \Y_2}-barra{Y} Y_{n}-bar{Y} \fin{bmatrix} & = & \frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{(n-1)S_{X}S_{Y}}\\ & = & \boldsymbol{r_{XY}} \N - fin{eqnarray*}

Así que vemos cuando ambos $X$ y $Y$ están estandarizados, el $\boldsymbol{X^{\prime}Y}=\boldsymbol{r_{XY}}$ que no es más que el coeficiente de correlación en la regresión simple. Así que, en este caso, $\hat{\beta}_1$ es el coeficiente de correlación entre el $X$ y $Y$ .

Podemos comprobar estos resultados en R :

#Generate some data
x<-rnorm(10, 5, 3)
y<-rnorm(10, 18, 2)

#Standardize x and y
x.standardized<-scale(x)
y.standardized<-scale(y)

#Compute estimated regression coefficients with both x and y standardized
betas.hats<-lm(y.standardized~x.standardized)$coeff
round(betas.hats, 5)

  (Intercept) x.standardized 
   0.00000        0.60224 

#Verify that beta_1 = correlation(x,y)
round(cor(x,y), 5)
  [1] 0.60224

0voto

user164061 Puntos 281

En la regresión lineal simple:

  • La pendiente es $\beta_1 = r_{xy}\frac{\sigma_y}{\sigma_x}$

  • El término constante es $\beta_0 = \bar{y} -\bar{x}\beta_1$

Se pueden estandarizar los datos, o desplazar y escalar los datos de cualquier otra manera, pero este coeficiente de correlación, $r_{xy}$ seguirán siendo los mismos.

En un modelo de regresión lineal univariante, entiendo que la pendiente no estandarizada para el predictor estandarizado $z=(x - \mu)/\sigma$ es igual a $\beta_1 \sigma_y / \sigma_x$ pero me pregunto cuál es la pendiente cuando $y$ ¿también está normalizado?

Sin embargo, no estoy seguro de que esta relación típica se mantenga si $y$ también está normalizado(?).

Esta relación típica $\beta_{unstd} = \beta_{std} \sigma_y / \sigma_x$ es especialmente el caso cuando $y$ también está normalizado, y no cuando sólo $x$ está estandarizado.

Para la estandarización $x$ y $y$ se obtiene $\sigma_x=\sigma_y =1$ y $\beta_{std} = r_{xy}$ . Para los casos no estandarizados $x$ y $y$ se obtiene $\beta_{unstd} = r_{xy}\frac{\sigma_y}{\sigma_x}$ . De la misma manera, se puede calcular lo que ocurre cuando sólo $x$ o sólo $y$ está estandarizado.

La intuición: los cambios en $\sigma_x$ y $\sigma_y$ cuando estás estandarizando, son como estirar o apretar el gráfico. Si $\sigma_y$ va de $1$ a $2.934$ entonces es como estirar el gráfico en $y$ dirección que hace que la pendiente $2.934$ veces mayor y por eso $\sigma_y$ está en el numerador de $\frac{\sigma_y}{\sigma_x}$ . Para un tramo en $x$ dirección la pendiente se hace más pequeña y cambia con la velocidad (inversa) del estiramiento y por eso $\sigma_x$ está en el denominador de $\frac{\sigma_y}{\sigma_x}$ .

¿Qué pasa con el término constante cuando $y$ ¿está estandarizado?

Basta con rellenar la fórmula anterior:

$\bar{y} - \bar{x}\beta_1=0.661 - 0.206 \times 1.556 \approx 0.340$

Esto no es exactamente lo mismo que $0.338$ , al igual que su $1.556$ y $1.565$ no coinciden. Posiblemente esto se deba a algún error de cálculo y a los resultados de las regresiones que has proporcionado. Este error de cálculo no me lo puedo imaginar, ya que la regresión lineal, un simple cálculo, no debería dar un error mayor que una ronda de error. Este error no es suficiente para explicar la diferencia, pero tal vez usted hizo el cálculo a mano). O, ¿quizás cometiste un error de escritura y cambiaste un 5 y un 6? ¿Cómo has obtenido estos resultados de regresión?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X