22 votos

¿Cuál es la diferencia entre condicionar los regresores y tratarlos como fijos?

A veces suponemos que los regresores son fijos, es decir, que no son estocásticos. I piense en eso significa que todos nuestros predictores, estimaciones de parámetros, etc. son incondicionales, ¿no? ¿Podría incluso ir tan lejos que ya no son variables aleatorias?

Si por otra parte aceptamos que la mayoría de los regresores en economía dicen son estocásticos porque ninguna fuerza exterior los determinó con algún experimento en mente. Los econometristas condicionan entonces a estos regresores estocásticos.

¿En qué se diferencia esto de tratarlos como fijos?

Entiendo lo que es el condicionamiento. Matemáticamente, significa que hacemos todas las observaciones e inferencias condicionales a que conjunto particular de regresores y no tenemos ninguna ambición de decir que las inferencias, las estimaciones de parámetros, las estimaciones de varianza, etc. habrían sido las mismas si hubiéramos visto una realización diferente de nuestros regresores (tal es el quid en las series temporales, donde cada serie temporal sólo se ve una vez).

Sin embargo, para comprender realmente la diferencia entre regresores fijos y condicionamiento sobre regresores estocásticos, me pregunto si alguien conoce un ejemplo de procedimiento de estimación o inferencia que sea válido para regresores fijos, pero que se rompa cuando son estocásticos (y se condicionan sobre ellos).

Estoy deseando ver esos ejemplos.

15voto

kjetil b halvorsen Puntos 7012

Aquí estoy sobre hielo delgado, pero permítanme intentarlo: Tengo la sensación (¡coméntenlo, por favor!) de que una de las principales diferencias entre estadística y econometría es que en estadística tendemos a considerar los regresores como fijos, de ahí la terminología matriz de diseño que obviamente proviene del diseño de experimentos, donde la suposición es que nosotros son los primeros elegir y luego fijación de las variables explicativas.

Pero para la mayoría de los conjuntos de datos, la mayoría de las situaciones, esto es un mal ajuste. En realidad estamos observando las variables explicativas, y en ese sentido están en pie de igualdad con las variables de respuesta, ambas están determinadas por algún proceso aleatorio fuera de nuestro control. Al considerar las $x$ 's como "fijo", decidimos no tener en cuenta muchos problemas que eso podría causar.

Por otra parte, al considerar los regresores como estocásticos, como suelen hacer los econometristas, se abre la posibilidad de realizar modelizaciones que traten de considerar tales problemas. Una breve lista de problemas que podríamos entonces considerar, e incorporar a la modelización, es:

Probablemente, eso debería hacerse con mucha más frecuencia de lo que se hace hoy Otro punto de vista es que los modelos son sólo aproximaciones y la inferencia debería admitirlo. El muy interesante documento La conspiración de los predictores aleatorios y las violaciones del modelo contra la inferencia clásica en regresión de A. Buja et.al. adopta este punto de vista y sostiene que las no linealidades (no modeladas explícitamente) destruyen el argumento de la ancilaridad que se expone a continuación.

EDIT 

Intentaré desarrollar un argumento para condicionar los regresores de manera algo más formal. Sea $(Y,X)$ sea un vector aleatorio, y el interés está en la regresión $Y$ en $X$ donde por regresión se entiende la expectativa condicional de $Y$ en $X$ . Bajo supuestos multinormales será una función lineal, pero nuestros argumentos no dependen de ello. Empezaremos factorizando la densidad conjunta de la forma habitual $$ f(y,x) = f(y\mid x) f(x) $$ pero esas funciones no son conocidas por lo que utilizamos un modelo parametrizado $$ f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x) $$ donde $\theta$ parametriza la distribución condicional y $\psi$ la distribución marginal de $X$ . En el modelo lineal normal podemos tener $\theta=(\beta, \sigma^2)$ pero eso no se presupone. El espacio de parámetros completo de $(\theta,\psi)$ es $\Theta \times \Psi$ , un producto cartesiano, y los dos parámetros no tienen ninguna parte en común.

Esto puede interpretarse como una factorización del experimento estadístico, (o del proceso de generación de datos, DGP), primero $X$ se genera según $f_\psi(x)$ y como segundo paso, $Y$ se genera según la densidad condicional $f_\theta(y \mid X=x)$ . Obsérvese que el primer paso no utiliza ningún conocimiento sobre $\theta$ que sólo entra en el segundo paso. La estadística $X$ es auxiliar para $\theta$ Ver https://en.wikipedia.org/wiki/Ancillary_statistic .

Pero, dependiendo de los resultados del primer paso, el segundo podría ser más o menos informativo sobre $\theta$ . Si la distribución dada por $f_\psi(x)$ tienen una varianza muy baja, digamos, la observada $x$ se concentrarán en una pequeña región, por lo que será más difícil estimar $\theta$ . Así pues, la primera parte de este experimento en dos fases determina la precisión con la que $\theta$ puede estimarse. Por lo tanto, es natural condicionar $X=x$ en la inferencia sobre los parámetros de regresión. Este es el argumento de la condicionalidad, y el esquema anterior deja claros sus supuestos.

En los experimentos diseñados, su suposición se cumple en la mayoría de los casos, pero a menudo no ocurre lo mismo con los datos observacionales. Algunos ejemplos de problemas serán: regresión con respuestas retardadas como predictores. En este caso, condicionar los predictores también condicionará la respuesta. (Añadiré más ejemplos).

Un libro que trata estos problemas con mucho detalle es Información y familias exponenciales: En teoría estadística por O. E Barndorff-Nielsen. Véase especialmente el capítulo 4. El autor dice Sin embargo, la lógica de separación en esta situación rara vez se explica. pero da las siguientes referencias: R A Fisher (1956) Métodos estadísticos e inferencia científica $\S 4.3$ y Sverdrup (1966) Estado actual de la teoría de la decisión y de la teoría Neyman-Pearson .

4voto

ColorStatistics Puntos 110

+1 a Kjetil b halvorsen. Sus respuestas son esclarecedoras y ésta no es una excepción. Creo que aquí se puede aportar algo más, porque la pregunta se refiere a "tratar los regresores como fijos" (como en una intervención hipotética, para utilizar el lenguaje de Pearl), pero también se refiere a "fijar los regresores" (como en un experimento de diseño real).

enter image description here


Aquí es donde la cosa se pone confusa. Distingamos entre 3 paradigmas diferentes:

  1. Diseña un experimento. Fijará el nivel de fertilizante en 1, 2 ó 3 unidades (el regresor) y observará el rendimiento (la variable de resultado). Se trata de una REAL experimento. Tú lo realizaste. El regresor en este caso no es aleatorio porque tú determinaste cuánto abono poner en cada parcela y no el lanzamiento de un dado o algún otro experimento aleatorio.
  2. Usted dispone de un conjunto de datos observacionales sobre rendimiento y fertilizantes y no está seguro de cómo se asignó el rendimiento a las parcelas, por lo que no puede suponer que se asignó aleatoriamente. Está interesado en $E[$ rendimiento|fertilizante $=3]-E[$ rendimiento|fertilizante $=2]$ . Esto equivale a filtrar el conjunto de datos de las parcelas a las que se asignaron 3 unidades de fertilizante y calcular su rendimiento medio, a continuación, filtrar el conjunto de datos de las parcelas a las que se asignaron 2 unidades de fertilizante y calcular su rendimiento medio y, a continuación, tomar la diferencia de los 2 promedios. En este caso, condicionar equivale a filtrar. Es importante señalar que se trata de no el efecto causal de aumentar el fertilizante de 2 a 3. Es sólo un resumen de su conjunto de datos existente.
  3. Usted dispone de un conjunto de datos observacionales sobre rendimiento y fertilizantes y sabe que en las parcelas de las zonas más soleadas se aplicó más fertilizante y sus conocimientos de agricultura le dicen que más sol se traduce en un mayor rendimiento. Suponga que nada más determinó conjuntamente cómo se asignó el fertilizante y el resultado, de modo que puede asumir que su DAG causal es completo y correcto. Suponga que está interesado en el efecto causal del fertilizante sobre el rendimiento cuando la cantidad de fertilizante se incrementó de 2 a 3. Utilizando el operador do Judea Pearl esta pregunta puede escribirse de forma equivalente como: $$E[yield|do(fertilizer=3)]-E[yield|do(fertilizer=2)]$$ En otras palabras, esta pregunta se refiere a la diferencia en el rendimiento medio si realizamos un hipotético experimento en el que primero asignamos a cada parcela 2 unidades de fertilizante y computamos el rendimiento medio, luego aplicamos a cada parcela 3 unidades de fertilizante y computamos el rendimiento medio y luego tomamos la diferencia entre estos 2 promedios. Para responder a esta pregunta tendremos que condicionar Y=rendimiento tanto a X=abono como a Z=saneamiento de la parcela.

En el 3er caso imaginar un mundo alternativo diferente de la realidad; estás imaginando algo contrafactual . Aquí se imagina un mundo en el que el nivel del regresor se ha fijado en un valor determinado. En el segundo caso aceptar/observar la realidad tal como es y querer resumirla . El regresor es aleatorio y usted condiciona sobre él para obtener un resumen de su conjunto de datos filtrado. En el primer caso tú creas la realidad . Usted fija los regresores en el mundo real y también tendrá que mancharse las botas de polvo porque está realizando el experimento.

Sometimes we assume that regressors are fixed, i.e. they are non-stochastic. I think that means all our predictors, parameter estimates etc. are unconditional then, right? Might I even go so far that they are no longer random variables?


Eso no es del todo correcto. Cuando los regresores son deterministas/no aleatorios, sí que no son variables aleatorias. Sin embargo, los estimadores MCO siguen siendo variables aleatorias porque son combinaciones lineales de $Y_i$ y el $Y_i$ son variables aleatorias (aunque todos los regresores sean deterministas) porque $\epsilon_i$ son variables aleatorias. Sí, cuando x no es aleatoria: $$E[Y|x]=\beta_0+\beta_1x+E[\epsilon|x]=\beta_0+\beta_1x+E[\epsilon]=E[Y]$$ pero cuando X es aleatorio: $$E[Y|X]=\beta_0+\beta_1X+E[\epsilon|X]\not=\beta_0+\beta_1E[X]+E[\epsilon]=E[Y]$$ Esta es una diferencia clave.


i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X