18 votos

¿Cuáles son las ventajas de la regresión lineal sobre la regresión cuantílica?

En regresión lineal modelo hace un montón de suposiciones que regresión cuantil no lo hace y, si se cumplen los supuestos de la regresión lineal, mi intuición (y una experiencia muy limitada) es que la regresión de la mediana daría resultados casi idénticos a los de la regresión lineal.

Entonces, ¿qué ventajas tiene la regresión lineal? Sin duda es más familiar, pero ¿algo más?

14voto

user164061 Puntos 281

A menudo se afirma que es preferible minimizar los residuos mínimos al cuadrado que minimizar los residuos absolutos. por la razón de que es computacionalmente más simple . Pero, puede también ser mejor por otras razones. A saber, si los supuestos son ciertos (y esto no es tan infrecuente), entonces proporciona una solución que es (por término medio) más precisa.

Máxima verosimilitud

La regresión por mínimos cuadrados y la regresión cuantílica (cuando se realizan minimizando los residuos absolutos) pueden considerarse como la maximización de la función de verosimilitud para errores con distribución de Gauss/Laplace, y en este sentido están muy relacionadas.

  • Distribución gaussiana:

    $$f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$

    maximizando la log-verosimilitud al minimizar la suma de los residuos al cuadrado

    $$\log \mathcal{L}(x) = -\frac{n}{2} \log (2 \pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \underbrace{\sum_{i=1}^n (x_i-\mu)^2}_{\text{sum of squared residuals}} $$

  • Distribución de Laplace:

    $$f(x) = \frac{1}{2b} e^{-\frac{\vert x-\mu \vert}{b}}$$

    maximizando la log-verosimilitud al minimizar la suma de los residuos absolutos

    $$\log \mathcal{L}(x) = -n \log (2) - n \log(b) - \frac{1}{b} \underbrace{\sum_{i=1}^n |x_i-\mu|}_{\text{sum of absolute residuals}} $$

Nota: la distribución de Laplace y la suma de residuos absolutos se refiere a la mediana, pero puede generalizarse a otros cuantiles dando diferentes pesos a los residuos negativos y positivos.

Distribución de errores conocida

Cuando conocemos la distribución de errores (cuando los supuestos son probablemente ciertos) tiene sentido elegir la función de verosimilitud asociada. Minimizar esa función es más óptimo.

Muy a menudo, los errores tienen una distribución (aproximadamente) normal. En ese caso, la utilización de mínimos cuadrados es la mejor manera de hallar el parámetro $\mu$ (que se refiere a ambos la media y la mediana). Es la mejor forma porque tiene la menor varianza muestral (la menor de todas imparcial estimadores). O se puede decir más rotundamente: que es estocásticamente dominante (véase la ilustración en esta pregunta comparando la distribución de la mediana y la media muestrales).

Así pues, cuando los errores se distribuyen normalmente, la media muestral es un mejor estimador de la mediana de la distribución que la mediana muestral . La regresión por mínimos cuadrados es un estimador más óptimo de los cuantiles. Es mejor que utilizar la suma mínima de los residuos absolutos.

Debido a que muchos problemas tratan con errores de distribución normal, el uso del método de los mínimos cuadrados es muy popular. Para trabajar con otro tipo de distribuciones se puede utilizar el método de los Modelo lineal generalizado . Y, el método de mínimos cuadrados iterativos, que puede utilizarse para resolver GLMs, también funciona para la distribución de Laplace (es decir. para desviaciones absolutas ), lo que equivale a hallar la mediana (o en la versión generalizada otros cuantiles).

Distribución de errores desconocida

Robustez

La mediana u otros cuantiles tienen la ventaja de que son muy robustos con respecto al tipo de distribución. Los valores reales no importan mucho y a los cuantiles sólo les importa el orden. Así que no importa cuál sea la distribución, minimizar los residuos absolutos (que equivale a encontrar los cuantiles) funciona muy bien.

La cuestión se vuelve aquí compleja y amplia y depende del tipo de conocimiento que tengamos o no sobre la función de distribución. Por ejemplo, una distribución puede ser aproximadamente normal, pero con algunos valores atípicos adicionales. Esto se puede solucionar eliminando los valores extremos. Esta eliminación de los valores extremos funciona incluso en la estimación del parámetro de localización de la Distribución de Cauchy donde la media truncada puede ser un mejor estimador que la mediana. Así que no sólo para la situación ideal cuando se cumplen los supuestos, sino también para algunas aplicaciones menos ideales (por ejemplo, valores atípicos adicionales) puede haber buenos métodos robustos que sigan utilizando alguna forma de suma de residuos al cuadrado en lugar de suma de residuos absolutos.

Imagino que la regresión con residuos truncados podría ser mucho más compleja desde el punto de vista computacional. Así que en realidad puede ser regresión cuantil que es el tipo de regresión que se realiza por la razón de que es computacionalmente más simple (no más sencillo que los mínimos cuadrados ordinarios, pero sí más sencillo que truncado mínimos cuadrados).

Parcial/imparcial

Otra cuestión son los estimadores sesgados frente a los insesgados. En el apartado anterior he descrito la estimación de máxima verosimilitud para la media, es decir, la solución de mínimos cuadrados, como un estimador bueno o preferible porque suele tener la varianza más baja de todos los estimadores insesgados (cuando los errores tienen una distribución normal). Pero los estimadores sesgados pueden ser mejores (menor suma esperada del error cuadrático).

Esto hace que la cuestión vuelva a ser amplia y compleja. Hay muchos estimadores diferentes y muchas situaciones distintas para aplicarlos. El uso de una función de pérdida de suma de residuos al cuadrado adaptada suele funcionar bien para reducir el error (por ejemplo, todo tipo de métodos de regularización), pero puede que no tenga por qué funcionar bien en todos los casos. Intuitivamente, no es extraño imaginar que, puesto que la función de pérdida de la suma de los residuos al cuadrado suele funcionar bien para todos los estimadores insesgados, el estimador insesgado óptimo sea probablemente algo parecido a una función de pérdida de la suma de los residuos al cuadrado.

2voto

La regresión lineal (RL) se reduce a la optimización por mínimos cuadrados a la hora de calcular sus coeficientes. Esto implica una simetría en las desviaciones del modelo de regresión. Una buena explicación de la regresión cuantílica (QR) se encuentra en https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Si se cumplen los supuestos de LR (necesarios para la inferencia: valores p, intervalos de confianza, etc.), las predicciones de QR y LR serán similares. Pero si los supuestos se incumplen gravemente, la inferencia LR estándar será errónea. Por lo tanto, una regresión cuantílica (mediana) de 0,5 presenta una ventaja sobre LR. También ofrece más flexibilidad a la hora de proporcionar regresión para otros cuantiles. El equivalente para los modelos lineales sería un límite de confianza calculado a partir de un LR (aunque esto sería erróneo si se viola fuertemente la iid).

¿Cuál es la ventaja de LR? Por supuesto, es más fácil de calcular, pero si el conjunto de datos tiene un tamaño razonable, puede que eso no sea muy apreciable. Pero lo más importante es que los supuestos de inferencia de LR proporcionan información que reduce la incertidumbre. Como resultado, los intervalos de confianza LR en las predicciones serán normalmente más estrechos. Así que si hay un fuerte apoyo teórico para los supuestos, los intervalos de confianza más estrechos pueden ser una ventaja.

2voto

Corsaka Puntos 181

La regresión lineal se utiliza para estimar la respuesta media condicional dados los datos, es decir $E(Y \vert X)$ donde $Y$ es la respuesta y $X$ son los datos. La regresión nos dice que $E(Y \vert X)= X \beta$ . Existen ciertos supuestos (puede encontrarlos en cualquier texto de estadística) para que la inferencia sea válida. Si se cumplen, generalmente el estimador estándar para $\beta$ es el BLUE (mejor estimador lineal insesgado, véase el teorema de Gauss-Markov).

La regresión cuantil puede utilizarse para estimar CUALQUIER cuantil de la distribución condicional, incluida la mediana. Esto proporciona potencialmente mucha más información que la media sobre la distribución condicional. Si la distribución condicional no es simétrica o las colas pueden ser gruesas (por ejemplo, en el análisis de riesgos), la regresión cuantil es útil INCLUSO si se cumplen todos los supuestos de la regresión lineal.

Por supuesto, es numéricamente más intensivo llevar a cabo la estimación cuantílica en relación con la regresión lineal, pero en general es mucho más robusto (por ejemplo, igual que la mediana es más robusta que la media frente a los valores atípicos). Además, es adecuada cuando la regresión lineal no lo es, por ejemplo, para datos censurados. La inferencia puede ser más complicada, ya que la estimación directa de la matriz de varianza-covarianza puede resultar difícil o costosa desde el punto de vista informático. En esos casos, se puede recurrir al bootstrap.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X