Aquí estoy sobre hielo delgado, pero permítanme intentarlo: Tengo la sensación (¡coméntenlo, por favor!) de que una de las principales diferencias entre estadística y econometría es que en estadística tendemos a considerar los regresores como fijos, de ahí la terminología matriz de diseño que obviamente proviene del diseño de experimentos, donde la suposición es que nosotros son los primeros elegir y luego fijación de las variables explicativas.
Pero para la mayoría de los conjuntos de datos, la mayoría de las situaciones, esto es un mal ajuste. En realidad estamos observando las variables explicativas, y en ese sentido están en pie de igualdad con las variables de respuesta, ambas están determinadas por algún proceso aleatorio fuera de nuestro control. Al considerar las $x$ 's como "fijo", decidimos no tener en cuenta muchos problemas que eso podría causar.
Por otra parte, al considerar los regresores como estocásticos, como suelen hacer los econometristas, se abre la posibilidad de realizar modelizaciones que traten de considerar tales problemas. Una breve lista de problemas que podríamos entonces considerar, e incorporar a la modelización, es:
Probablemente, eso debería hacerse con mucha más frecuencia de lo que se hace hoy Otro punto de vista es que los modelos son sólo aproximaciones y la inferencia debería admitirlo. El muy interesante documento La conspiración de los predictores aleatorios y las violaciones del modelo contra la inferencia clásica en regresión de A. Buja et.al. adopta este punto de vista y sostiene que las no linealidades (no modeladas explícitamente) destruyen el argumento de la ancilaridad que se expone a continuación.
EDIT
Intentaré desarrollar un argumento para condicionar los regresores de manera algo más formal. Sea $(Y,X)$ sea un vector aleatorio, y el interés está en la regresión $Y$ en $X$ donde por regresión se entiende la expectativa condicional de $Y$ en $X$ . Bajo supuestos multinormales será una función lineal, pero nuestros argumentos no dependen de ello. Empezaremos factorizando la densidad conjunta de la forma habitual $$ f(y,x) = f(y\mid x) f(x) $$ pero esas funciones no son conocidas por lo que utilizamos un modelo parametrizado $$ f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x) $$ donde $\theta$ parametriza la distribución condicional y $\psi$ la distribución marginal de $X$ . En el modelo lineal normal podemos tener $\theta=(\beta, \sigma^2)$ pero eso no se presupone. El espacio de parámetros completo de $(\theta,\psi)$ es $\Theta \times \Psi$ , un producto cartesiano, y los dos parámetros no tienen ninguna parte en común.
Esto puede interpretarse como una factorización del experimento estadístico, (o del proceso de generación de datos, DGP), primero $X$ se genera según $f_\psi(x)$ y como segundo paso, $Y$ se genera según la densidad condicional $f_\theta(y \mid X=x)$ . Obsérvese que el primer paso no utiliza ningún conocimiento sobre $\theta$ que sólo entra en el segundo paso. La estadística $X$ es auxiliar para $\theta$ Ver https://en.wikipedia.org/wiki/Ancillary_statistic .
Pero, dependiendo de los resultados del primer paso, el segundo podría ser más o menos informativo sobre $\theta$ . Si la distribución dada por $f_\psi(x)$ tienen una varianza muy baja, digamos, la observada $x$ se concentrarán en una pequeña región, por lo que será más difícil estimar $\theta$ . Así pues, la primera parte de este experimento en dos fases determina la precisión con la que $\theta$ puede estimarse. Por lo tanto, es natural condicionar $X=x$ en la inferencia sobre los parámetros de regresión. Este es el argumento de la condicionalidad, y el esquema anterior deja claros sus supuestos.
En los experimentos diseñados, su suposición se cumple en la mayoría de los casos, pero a menudo no ocurre lo mismo con los datos observacionales. Algunos ejemplos de problemas serán: regresión con respuestas retardadas como predictores. En este caso, condicionar los predictores también condicionará la respuesta. (Añadiré más ejemplos).
Un libro que trata estos problemas con mucho detalle es Información y familias exponenciales: En teoría estadística por O. E Barndorff-Nielsen. Véase especialmente el capítulo 4. El autor dice Sin embargo, la lógica de separación en esta situación rara vez se explica. pero da las siguientes referencias: R A Fisher (1956) Métodos estadísticos e inferencia científica $\S 4.3$ y Sverdrup (1966) Estado actual de la teoría de la decisión y de la teoría Neyman-Pearson .