5 votos

Regresión lineal simple: Si Y y X son normales, ¿cuál es la distribución nula exacta de los parámetros?

Supongamos que $Y \sim{N(a,b)}$ , $X \sim{N(c,d)}$ y $Y$ es independiente de $X$ . Tras el muestreo de 25 observaciones de ambos $Y$ y $X$ ejecuto el siguiente modelo de regresión: $Y=\beta_{0}+\beta_{1}X + \epsilon$ . Deseo probar la hipótesis $H_{0}: \beta_{0}=0$ contra la alternativa $H_{1}: \beta_{0}\neq 0$ .

Mi pregunta es, ya que las distribuciones de $Y$ y $X$ son conocidos, ¿existe una "distribución nula" exacta para el parámetro $\beta_{0}$ ? Si es así, ¿cuál es la distribución? Por distribución nula, me refiero a la distribución muestral de $\beta_{0}$ bajo la hipótesis nula.

Si alguien conoce la respuesta asumiendo el verdadero coeficiente de correlación entre $Y$ y $X$ es 0,1, en lugar de asumir la independencia, eso también sería una gran ayuda. Todo esto es para un estudio de simulación en el que estoy trabajando.

6 votos

Me pregunto si se refiere a la distribución de $\hat \beta_0$ más que de $\beta_0$ ? Usted ha especificado que está 100% seguro de que $\beta_0 = 0$ Así que eso es más bien distribución degenerada ¡que tiene! Pero me parece que podría estar más interesado en la distribución de $\hat \beta_0$ que es la estimación de $\beta_0$ que usted haría a partir de su muestra aleatoria - y como diferentes muestras aleatorias producirán estimaciones ligeramente diferentes, su estimador tiene una distribución de probabilidad no degenerada

0 votos

Esta pregunta sería más interesante si se deja de lado el supuesto de independencia en $X$ y $Y$ y añadir un supuesto de distribución normal conjunta.

0 votos

Sí, me refería a que si iba a probar $\beta _{0}=0$ (para un ejercicio de simulación en el que estoy trabajando... Sé que el valor real es $c$ ), tendría que generar la distribución muestral de $\hat{\beta _{0}}$ bajo la nulidad de que $\beta _{0}=0$ . Lo sé. asintóticamente esta distribución es normal. Pero como X e Y son normales y n es relativamente pequeño, ¿puedo utilizar la distribución t (por ejemplo) para formar una distribución nula "exacta" de $\hat{\beta _{0}}$ en lugar de utilizar la aproximación asintótica. El verdadero valor del parámetro es 0 (obviamente), ¡pero esto no es lo que busco!

6voto

Aaron Puntos 36

Dado que ha especificado que $X$ y $Y$ son independientes, la media condicional de $Y$ dado $X$ es:

$$\mathbb{E}(Y|X) = \mathbb{E}(Y) = c,$$

lo que implica que:

$$\beta_0 = c \quad \quad \quad \beta_1 = 0 \quad \quad \quad \varepsilon \sim \text{N}(0, d).$$

En este caso no hay nada que probar, los parámetros de la regresión están totalmente determinados por los supuestos de distribución que has hecho al principio de la pregunta.

Recuerde que un modelo de regresión es un modelo diseñado para describir la distribución condicional de $Y$ dado $X$ . Si se asume la independencia de estas variables, se anula todo el ejercicio de modelización.

0 votos

Gracias. Me refería a que si iba a probar $\beta _{0}=0$ (para un ejercicio de simulación en el que estoy trabajando... Sé que el valor real es $c$ ) de la forma habitual, tendría que generar la distribución muestral de $\hat{\beta _{0}}$ bajo la nulidad de que $\beta _{0}=0$ . Lo sé. asintóticamente esta distribución muestral es normal. Pero como $X$ y $Y$ son normales y $n$ es bastante pequeño, ¿puedo utilizar la distribución t (por ejemplo) para formar una distribución nula "exacta" de $\hat{\beta _{0}}$ La probabilidad de cobertura es exactamente $(1-\alpha)$ ? ¿Y si $\rho_{XY}=0.1$ (digamos) en lugar de 0?

1 votos

Una vez que se elimina la suposición de que $X$ y $Y$ son independientes, el modelo de regresión es su especificación de su relación condicional. Gran parte de la información que has dado en tu comentario, lamentablemente, contradice tu pregunta original. Tampoco está claro por qué se prueba $H_0: \beta_0 = 0$ si sabe por alguna otra fuente (su simulación) que $\beta_0 = c$ . Creo que en este punto probablemente tendrá que hacer una nueva pregunta donde se aclare toda esta información.

1voto

user164061 Puntos 281

En la regresión lineal simple el cálculo de la estimación de $\beta_0$ es:

$$\hat\beta_0 = \frac {1}{n} S_y + \frac {1}{n} S_x \frac {n S_{xy} - S_x S_y}{ n S_{xx} - S_x S_x}$$

con $S_x = \sum x_i $ , $S_y = \sum y_i $ , $S_{xx} = \sum x_i x_i $ , $S_{xy} = \sum x_i y_i $

Se podría decir que será una suma lineal de los $y_i$

$$\hat\beta_0 = \frac {1} {n} \sum c_i y_i $$

con

$$c_i =\left( 1 + \frac {n x_i - S_x}{n S_{xx} - S_x S_x} \right) $$

Esto no parece seguir una distribución fácil (o al menos no una distribución típica bien conocida) para ambos al azar $x_i $ y $y_i$ que tienes:

$$\hat\beta_0 \sim N(\mu, \sigma^2)$$

donde $\mu$ y $\sigma$ son variables aleatorias que dependen de la distribución de $X$ también. (si cada $y_i$ tiene una distribución idéntica $N(a,b)$ entonces $\mu = a$ independiente de la distribución de $X$ )

Sin embargo, si condiciona en $x_i$ entonces $\hat\beta_0$ sigue una distribución normal regular (nótese que el $y_i$ no es necesario que se distribuyan según distribuciones normales idénticas) .

En las pruebas, a menudo no se conoce la varianza de esta distribución normal y se estima a partir de los residuos. Entonces se utilizará la distribución t.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X