Puesta en marcha
Suponga que tiene una regresión simple de la forma $$\ln y_i = \alpha + \beta S_i + \epsilon_i $$ donde los resultados son los ingresos logarítmicos de la persona $i$ , $S_i$ es el número de años de escolaridad, y $\epsilon_i$ es un término de error. En lugar de observar únicamente el efecto medio de la educación sobre los ingresos, que se obtendría mediante OLS, también se desea ver el efecto en diferentes partes de la distribución de resultados.
1) ¿Cuál es la diferencia entre la configuración condicional y la incondicional?
En primer lugar, trazamos los ingresos logarítmicos y elegimos dos individuos, $A$ y $B$ , donde $A$ se encuentra en la parte inferior de la distribución incondicional de los ingresos y $B$ está en la parte superior.
No parece extremadamente normal, pero eso es porque sólo he utilizado 200 observaciones en la simulación, así que no te preocupes por eso. Ahora bien, ¿qué ocurre si condicionamos los ingresos a los años de educación? Para cada nivel de educación se obtendría una distribución de ingresos "condicional", es decir, se obtendría un gráfico de densidad como el anterior pero para cada nivel de educación por separado.
Las dos líneas azules oscuras son los ingresos previstos a partir de regresiones cuantílicas lineales en la mediana (línea inferior) y el percentil 90 (línea superior). Las densidades rojas a los 5 y a los 15 años de educación ofrecen una estimación de la distribución condicional de los ingresos. Como se ve, los individuos $A$ cuenta con 5 años de educación y un individuo $B$ tiene 15 años de formación. Aparentemente, el individuo $A$ va bastante bien entre sus peras en el tramo de 5 años de educación, de ahí que esté en el percentil 90.
Por tanto, una vez que se condiciona a otra variable, ha sucedido que una persona está ahora en la parte superior de la distribución condicional, mientras que esa persona estaría en la parte inferior de la distribución incondicional; esto es lo que cambia la interpretación de los coeficientes de la regresión cuantílica. ¿Por qué?
Ya dijo que con OLS podemos pasar de $E[y_i|S_i] = E[y_i]$ aplicando la ley de expectativas iteradas, sin embargo, esta es una propiedad del operador de expectativas que no está disponible para los cuantiles (¡desgraciadamente!). Por lo tanto, en general $Q_{\tau}(y_i|S_i) \neq Q_{\tau}(y_i)$ en cualquier cuantil $\tau$ . Esto se puede resolver realizando primero la regresión cuantílica condicional y luego integrando las variables condicionantes para obtener el efecto marginado (el efecto incondicional) que se puede interpretar como en OLS. Un ejemplo de este enfoque es el siguiente Powell (2014) .
2) ¿Cómo interpretar los coeficientes de la regresión cuantílica?
Esta es la parte complicada y no pretendo poseer todo el conocimiento del mundo sobre esto, así que tal vez alguien se le ocurra una mejor explicación para esto. Como has visto, el rango de un individuo en la distribución de los ingresos puede ser muy diferente según consideres la distribución condicional o la incondicional.
Para la regresión cuantílica condicional
Como no se puede saber en qué lugar de la distribución de resultados se encuentra un individuo antes y después de un tratamiento, sólo se pueden hacer afirmaciones sobre la distribución en su conjunto. Por ejemplo, en el ejemplo anterior un $\beta_{90} = 0.13$ significaría que un año adicional de educación aumenta los ingresos en el percentil 90 de la distribución condicional de los ingresos (pero no se sabe quién está en ese cuantil antes de asignar a las personas un año adicional de educación). Por eso, las estimaciones de cuantiles condicionales o los efectos de tratamiento de cuantiles condicionales no suelen considerarse "interesantes". Normalmente nos gustaría saber cómo afecta un tratamiento a nuestros individuos en cuestión, no sólo a la distribución.
Para la regresión cuantílica incondicional
Son como los coeficientes OLS que estás acostumbrado a interpretar. La dificultad aquí no es la interpretación, sino cómo obtener esos coeficientes, lo que no siempre es fácil (la integración puede no funcionar, por ejemplo, con datos muy dispersos). Existen otras formas de marginar los coeficientes de regresión cuantílica, como el método de Firpo (2009) que utiliza la función de influencia recentrada. En el libro de Angrist y Pischke (2009) mencionado en los comentarios se afirma que la marginación de los coeficientes de regresión cuantílica sigue siendo un campo de investigación activo en econometría, aunque, por lo que sé, la mayoría de la gente se conforma con el método de integración (un ejemplo sería Melly y Santangelo (2015) que lo aplican al modelo de cambios en los cambios).
3) ¿Están sesgados los coeficientes de la regresión cuantílica condicional? No (suponiendo que tengas un modelo correctamente especificado), simplemente miden algo diferente que puede interesarte o no. Un efecto estimado sobre una distribución y no sobre los individuos es, como he dicho, poco interesante, la mayoría de las veces. Por poner un contraejemplo: consideremos un responsable político que introduce un año adicional de escolarización obligatoria y quiere saber si esto reduce la desigualdad de ingresos en la población.
Los dos paneles superiores muestran un cambio de ubicación puro en el que $\beta_{\tau}$ es una constante en todos los cuantiles, es decir, un efecto de tratamiento de cuantil constante, lo que significa que si $\beta_{10} = \beta_{90} = 0.8$ En cuanto a la educación, un año adicional de educación aumenta los ingresos en un 8% en toda la distribución de los ingresos.
Cuando el efecto del tratamiento cuantílico NO es constante (como en los dos paneles inferiores), también se tiene un efecto de escala además del efecto de localización. En este ejemplo, la parte inferior de la distribución de los ingresos se desplaza más hacia arriba que la parte superior, por lo que el diferencial 90-10 (una medida estándar de la desigualdad de los ingresos) disminuye en la población.
No se sabe qué individuos se benefician de ella ni en qué parte de la distribución están las personas que empezaron en la parte inferior (para responder a ESA pregunta se necesitan los coeficientes de regresión cuantílica incondicional). Tal vez esta política les perjudique y les coloque en una parte aún más baja en relación con los demás, pero si el objetivo era saber si un año adicional de educación obligatoria reduce la diferencia de ingresos, entonces esto es informativo. Un ejemplo de este enfoque es Brunello et al. (2009) .
Si todavía está interesado en el sesgo de las regresiones cuantílicas debido a las fuentes de endogeneidad, eche un vistazo a Angrist et al (2006) donde derivan una fórmula de sesgo de variable omitida para el contexto del cuantil.
1 votos
Le recomiendo que consulte el capítulo 7 de "Mostly harmless econometrics" de Angrist y Pischke. Tiene algunos ejemplos de interpretación de los coeficientes de la regresión cuantílica y de las implicaciones de que los cuantiles sean condicionales a X. Estoy de acuerdo contigo en que esas implicaciones no invalidan el uso del modelo a menos que busques aislar el impacto de una covariable. Creo que las regresiones cuantílicas también pueden estar sesgadas; Angrist y Pischke exploran algunos métodos propuestos para controlar las variables omitidas, por ejemplo.
1 votos
No es una respuesta, pero quizá sea una pista: la regresión cuantílica puede plantearse como un problema de "datos perdidos", en el que los datos perdidos son las ponderaciones utilizadas en la regresión OLS ponderada. Por ejemplo, si se utiliza la distribución exponencial para el peso inverso, se obtiene la regresión de la mediana ( $\tau=50$ ).