2 votos

¿Desigualdades de concentración para coeficientes de regresión estimados por mínimos cuadrados?

Me gustaría saber cuál es la mejor desigualdad de concentración que podemos utilizar para los coeficientes estimados de regresión por mínimos cuadrados. Sea $\hat \beta_0, \hat \beta_1$ son los coeficientes de regresión estimados cuando resolvemos el siguiente modelo de regresión lineal simple por mínimos cuadrados ordinarios: $$ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad \quad i=1,2,\dots,n, $$ donde $E[\varepsilon_i|X] = 0$ y $\text{Var}[\varepsilon_i|X] = \sigma^2$ .

Consideremos ahora $\hat \beta_1$ por ejemplo, la desigualdad de Chebyshev nos da $$ P(|\hat \beta_1 - \beta| > t) \le \frac{\text{Var}(\hat \beta_1)}{t^2}. $$

¿Es ésta la única desigualdad de concentración que podemos utilizar para $\hat \beta_1$ ? Estaba pensando que tal vez podamos explotar el hecho de que $\hat \beta_1$ es asintóticamente normal, es decir, $$ \beta_1 \stackrel{a}{\sim} \mathcal{N}\bigg(\beta_1,\frac{\sigma^2}{n} (X^TX)^{-1}\bigg). $$

¿Podemos utilizar este hecho para enunciar una desigualdad de concentración más estricta que la desigualdad de Chebyshev en el caso de un gran número de muestras?

1voto

Jeff Bauer Puntos 236

Si $\hat \beta_1$ es aproximadamente normal con media $\beta_1$ entonces $Z=|\hat \beta_1-\beta_1|$ es una Media Normal, que tiene función de distribución

$$F_{HN}(z) = 2\Phi(z/\sigma_z) - 1$$

donde $\sigma_z$ es la desviación típica de $\hat \beta_1-\beta_1$ y $\Phi$ es la función de distribución Normal estándar.

Así que

$${\rm Pr}(|\hat \beta_1-\beta_1| > t) = 1 - F_{HN}(t) = 2 \Phi\left(-\frac{t}{\sigma_z} \right).$$

Esto nos da la probabilidad "exacta" (dada la aproximación Normal), que en general debería tener un valor por debajo del límite de Chebychev.

¿Ah, sí?

1voto

En función de los valores de $X$ y los momentos de $Y$ se pueden utilizar momentos superiores del mismo modo que el segundo momento (si se pretende que los distintos momentos son conocidos en lugar de estimados, como se hace con la varianza)

$$\hat\beta = (X^TX)^{-1}\sum_{i=1}^n x_iy_i= n(X^TX)^{-1} \frac{1}{n}\sum_{i=1}^n x_iy_i$$ Utilizando la desigualdad de Markov en el $m$ potencia de los sumandos,

$$P(|\frac{1}{n}\sum_{i=1}^n x_iy_i- \frac{1}{n}\sum_{i=1}^n x_iE[y_i]|>t)\leq \frac{\kappa_m}{t^m}$$ donde $\kappa_m$ es el $m$ momento central de $\frac{1}{n}\sum_{i=1}^n x_iy_i$ si ese momento existe.

Y si $\kappa_{\psi_1}=E[\exp( \frac{1}{n}\sum_{i=1}^n x_iy_i )]$ existe, $$P(|\frac{1}{n}\sum_{i=1}^n x_iy_i- \frac{1}{n}\sum_{i=1}^n x_iE[y_i]|>t)\leq \frac{\kappa_{\psi_1}}{e^t}$$

El problema con estos, como he insinuado anteriormente, es que los límites implican los momentos desconocidos, al igual que la desigualdad de Chebyshev (el $m=2$ caso) lo hace. Si estás contento con constantes desconocidas en los límites, está bien. En general, los límites no se mantienen cuando se introducen estimaciones de las constantes.

Por ejemplo, tomemos la desigualdad de Chebyshev. Para obtener un límite cuando $\sigma^2$ se estima, se necesita un límite para $\hat\sigma^2-\sigma^2$ y es el mismo problema con el que empezaste, sólo que más difícil. Si usted sabe un límite en el cuarto momento, se puede obtener un buen límite en $\hat\sigma^2-\sigma^2$ -- pero hemos pasado de supuestos de segundo momento a supuestos de cuarto momento.

Otro ejemplo son los límites normales. Como todos sabemos, aunque $Y$ es exactamente Normal con varianza constante (pero desconocida), terminamos con $t$ -distribuciones en los límites en lugar de Normales, y empeora si $Y$ no es normal.

Los límites con constantes estimadas están más cerca de cumplirse a medida que aumenta el tamaño de la muestra (para distribuciones fijas), pero (en general) no se cumplen para cualquier distribución finita. $n$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X