8 votos

La regresión cuantílica revela diferentes relaciones en distintos cuantiles: ¿cómo?

A veces se dice que la regresión cuantil (QR) revela diferentes relaciones entre las variables en diferentes cuantiles de la distribución. Por ejemplo, Le Cook et al. "Pensar más allá de la media: una guía práctica para utilizar los métodos de regresión cuantílica en la investigación de servicios sanitarios" implican que el QR permite que las relaciones entre los resultados de interés y las variables explicativas no sean constantes a través de diferentes valores de las variables.

Sin embargo, hasta donde yo sé, en un modelo de regresión lineal estándar $$ y = \beta_0 + \beta X + \varepsilon $$ con $\varepsilon$ siendo i.i.d. e independiente de $X$ el estimador QR de la pendiente $\beta$ es consistente para la pendiente de la población (que es única y no varía de todos modos entre cuantiles). Es decir, el objeto que se estima es siempre el mismo, independientemente del cuantil. Es cierto que este no es el caso del intercepto, ya que el estimador del intercepto QR tiene como objetivo estimar un cuantil particular de la distribución del error. En conjunto, no veo cómo se supone que las diferentes relaciones entre las variables se revelan en diferentes cuantiles a través de la QR. Supongo que esto es una propiedad del modelo de regresión lineal estándar más que un error en mi comprensión, pero no estoy seguro.

Supongo que la situación es diferente cuando se violan algunos de los supuestos del modelo lineal estándar, por ejemplo, bajo ciertas formas de heteroscedasticidad condicional. Entonces, tal vez los estimadores de la pendiente QR convergen a algo distinto de la verdadera pendiente del modelo lineal y de alguna manera revelan diferentes relaciones en diferentes cuantiles.

¿En qué me estoy equivocando? ¿Cómo debo entender/interpretar correctamente la afirmación de que la regresión cuantílica revela diferentes relaciones entre las variables en diferentes cuantiles?

1 votos

Hay muchas maneras de pensar en el QR. Una de ellas es que se trata de un tipo de regresión kernel donde los kernels son los cuantiles. De este modo, es un enfoque no paramétrico y robusto en el que no se pueden asumir soluciones lineales. Hyndman, et al, ha propuesto la regresión cuantílica adaptativa potenciada como marco global para la modelización basada en QR. Copia no publicada aquí ... robjhyndman.com/papers/sig-alternate.pdf

1 votos

@DJohnson, gracias. Supongo que estoy demasiado influenciado por el documento original Koenker y Bassett (1978) donde la motivación es únicamente encontrar un estimador robusto de la pendiente en el modelo lineal estándar en lugar de obtener diferentes relaciones en diferentes cuantiles.

0 votos

No cabe duda de que trabajos como el de Koenker y Bassett influyen en el modo en que los futuros analistas formulan una pregunta. Otro buen documento sobre QR es el de Le Cook y Manning de 2013, *Thinking Beyond the Mean: a practical guide for using quantile regression methods"... copia sin publicar aquí... dash.harvard.edu/bitstream/handle/1/12406692/ Para saberlo... pero su objetivo es la atención sanitaria...

8voto

Bill Puntos 16

La "pendiente verdadera" en un modelo lineal normal indica la cantidad de media respuesta cambia gracias a un aumento de un punto en $x$ . Al suponer la normalidad y la igualdad de varianza, todos los cuantiles de la distribución condicional de la respuesta se ajustan a ella. A veces, estos supuestos son muy poco realistas: la varianza o la asimetría de la distribución condicional dependen de $x$ y por lo tanto, sus cuantiles se mueven a su propia velocidad al aumentar $x$ . En QR se verá inmediatamente que las estimaciones de las pendientes son muy diferentes. Dado que OLS sólo se preocupa por la media (es decir, el cuantil medio), no puede modelar cada cuantil por separado. En este caso, se confía plenamente en el supuesto de la forma fija de la distribución condicional al hacer afirmaciones sobre sus cuantiles.

EDITAR: Incrustar comentario e ilustrar

Si estás dispuesto a hacer esa fuerte suposición, no tiene mucho sentido ejecutar el QR ya que siempre puedes calcular los cuantiles condicionales a través de la media condicional y la varianza fija. Las "verdaderas" pendientes de todos los cuantiles serán iguales a la verdadera pendiente de la media. En una muestra específica, por supuesto, habrá alguna variación aleatoria. O incluso podría detectar que sus supuestos estrictos eran erróneos...

Permítanme ilustrar con un ejemplo en R. Muestra la línea de mínimos cuadrados (negro) y luego en rojo los cuantiles modelados del 20%, 50% y 80% de los datos simulados según la siguiente relación lineal $$ y = x + x \varepsilon, \quad \varepsilon \sim N(0, 1) \ \text{iid}, $$ para que no sólo la media condicional de $y$ depende de $x$ sino también la varianza. enter image description here

  • Las líneas de regresión de la media y la mediana son esencialmente idénticas debido a la distribución condicional simétrica. Su pendiente es 1.
  • La línea de regresión del cuantil del 80% es mucho más pronunciada (pendiente 1,9), mientras que la línea de regresión del cuantil del 20% es casi constante (pendiente 0,3). Esto se adapta bien a la varianza extremadamente desigual.
  • Aproximadamente el 60% de todos los valores están dentro de las líneas rojas exteriores. Forman un intervalo de previsión simple y puntual del 60% en cada valor de $x$ .

El código para generar la imagen:

library(quantreg)

set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)

plot(y~x)

(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858 
abline(fit_lm, lwd = 3)

# quantile cuts
taus <- c(0.2, 0.5, 0.8)

(fit_rq <- rq(y~x, tau = taus))
#               tau= 0.2      tau= 0.5    tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x           0.29960652  1.0954521888 1.918622442

lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))

2 votos

+1. Creo que la parte crucial está en la varianza o asimetría del error dependiendo de $x$ que es lo que he intentado descartar al decir "modelo de regresión lineal estándar". He editado mi post en consecuencia para que quede más claro. En cuanto a Al suponer normalidad e igual varianza, todos los cuantiles de la distribución condicional de la respuesta se mueven en línea con aquella Supongo que la suposición de normalidad es redundante.

2 votos

Exactamente. Si estás dispuesto a hacer esa fuerte suposición, no tiene mucho sentido ejecutar el QR, ya que siempre puedes calcular los cuantiles condicionales a través de la media condicional y la varianza fija. Las "verdaderas" pendientes de todos los cuantiles serán iguales a la verdadera pendiente de la media. En la muestra, habrá alguna variación aleatoria. O incluso podría detectar que sus supuestos estrictos eran erróneos... ;-)

0 votos

Eso tiene sentido. En la muestra, creo que las estimaciones de la pendiente del QR para los diferentes cuantiles probablemente estarán algo dispersas en línea con los cuantiles. Esto se debe a que la función de pérdida que se minimiza arrastrará el estimador asimétricamente hacia un lado (la dirección y la magnitud del arrastre dependen del cuantil), aunque asintóticamente este efecto será cada vez menor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X