¿Por qué utilizamos un análisis de diseño fijo de los coeficientes de regresión, incluso para los datos observacionales, donde el diseño no es fijo?
Por ejemplo: $Var[\hat \beta]=(X'X)^{-1}\sigma^2$ está condicionada a $X$ . Desde $X$ es aleatoria en los estudios observacionales, se trata de una subestimación de la verdadera $Var[\hat \beta]$ .
Editar : Como ha señalado @christoph-hanck, $(X'X)^{-1}$ no puede ser, por definición, sistemáticamente menor que $\mathbb{E}(X'X)^{-1}$ . La pregunta sigue siendo: ¿por qué utilizamos errores estándar de diseño fijo, en lugar de errores estándar de diseño aleatorio?
0 votos
¿Cuál es la alternativa? No se tiene la matriz de diseño aleatorio, por lo que no se puede estimar la varianza incondicional
1 votos
El problema no es tanto la forma en que se recogen los datos como la cómo se utilizarán los resultados. ¿Exactamente qué uso tienes en mente para un análisis de regresión en el que te preocupa la distribución de los regresores?
0 votos
@whuber: Quiero hacer inferencia en el $\beta$ 's.
0 votos
@Aksakal: sabemos por La paradoja de Stein que al estimar muchos parámetros a la vez (como $Var[X]$ ), podemos mejorar la precisión mediante la regularización.
0 votos
¿Qué tiene que ver la regularización con esto? Es un tema totalmente diferente
0 votos
@Aksakal: en realidad no. Si $(X'X)^{-1}$ es un estimador de $\mathbb{E}(X'X)^{-1}$ entonces sospecho que para la mayoría de las funciones de pérdida $(X'X)^{-1}$ es inadmisible y puede beneficiarse de alguna regularización.
0 votos
¿Por qué sacas a relucir aquí las funciones de pérdida? Son irrelevantes para tu pregunta, a no ser que te refieras a algo diferente de lo que has preguntado.
0 votos
En este modelo la estimación de las betas, por tratarse de la condicional la distribución de la respuesta, es independiente de la distribución de las variables explicativas. Su pregunta dice actualmente que quiere hacer inferencias sobre la desviación de su estimaciones, que es una cuestión diferente, y que no se suele tener en cuenta en los entornos de regresión.
0 votos
@whuber: ese es exactamente mi punto. Por qué es tan común hacer inferencia condicional, mientras que en los estudios observacionales el diseño es aleatorio?
0 votos
Lo que quiero decir es que su pregunta se refiere, en última instancia, a las razones por las que la gente hace estudios observacionales, y eso probablemente depende del campo de interés. La mayor parte de la literatura que he visto que utiliza la regresión en los estudios observacionales se ocupa de estimar las distribuciones condicionales en lugar de las distribuciones completas. Para estimar las distribuciones completas se utilizan otras técnicas, que van desde el análisis de correlación hasta el ACP y otras.
0 votos
@whuber: Sólo puedo suponer que la gente hace estudios observacionales porque un experimento diseñado es imposible. Estoy preguntando por qué hacen un estudio observacional, y lo analizan como un experimento diseñado.
0 votos
Ver stats.stackexchange.com/questions/144826/
0 votos
Tal vez deberíamos escribir más claro: $Var[\hat \beta|X]=(X'X)^{-1}\sigma^2$