A menudo se afirma que es preferible minimizar los residuos mínimos al cuadrado que minimizar los residuos absolutos. por la razón de que es computacionalmente más simple . Pero, puede también ser mejor por otras razones. A saber, si los supuestos son ciertos (y esto no es tan infrecuente), entonces proporciona una solución que es (por término medio) más precisa.
Máxima verosimilitud
La regresión por mínimos cuadrados y la regresión cuantílica (cuando se realizan minimizando los residuos absolutos) pueden considerarse como la maximización de la función de verosimilitud para errores con distribución de Gauss/Laplace, y en este sentido están muy relacionadas.
-
Distribución gaussiana:
$$f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$
maximizando la log-verosimilitud al minimizar la suma de los residuos al cuadrado
$$\log \mathcal{L}(x) = -\frac{n}{2} \log (2 \pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \underbrace{\sum_{i=1}^n (x_i-\mu)^2}_{\text{sum of squared residuals}} $$
-
Distribución de Laplace:
$$f(x) = \frac{1}{2b} e^{-\frac{\vert x-\mu \vert}{b}}$$
maximizando la log-verosimilitud al minimizar la suma de los residuos absolutos
$$\log \mathcal{L}(x) = -n \log (2) - n \log(b) - \frac{1}{b} \underbrace{\sum_{i=1}^n |x_i-\mu|}_{\text{sum of absolute residuals}} $$
Nota: la distribución de Laplace y la suma de residuos absolutos se refiere a la mediana, pero puede generalizarse a otros cuantiles dando diferentes pesos a los residuos negativos y positivos.
Distribución de errores conocida
Cuando conocemos la distribución de errores (cuando los supuestos son probablemente ciertos) tiene sentido elegir la función de verosimilitud asociada. Minimizar esa función es más óptimo.
Muy a menudo, los errores tienen una distribución (aproximadamente) normal. En ese caso, la utilización de mínimos cuadrados es la mejor manera de hallar el parámetro $\mu$ (que se refiere a ambos la media y la mediana). Es la mejor forma porque tiene la menor varianza muestral (la menor de todas imparcial estimadores). O se puede decir más rotundamente: que es estocásticamente dominante (véase la ilustración en esta pregunta comparando la distribución de la mediana y la media muestrales).
Así pues, cuando los errores se distribuyen normalmente, la media muestral es un mejor estimador de la mediana de la distribución que la mediana muestral . La regresión por mínimos cuadrados es un estimador más óptimo de los cuantiles. Es mejor que utilizar la suma mínima de los residuos absolutos.
Debido a que muchos problemas tratan con errores de distribución normal, el uso del método de los mínimos cuadrados es muy popular. Para trabajar con otro tipo de distribuciones se puede utilizar el método de los Modelo lineal generalizado . Y, el método de mínimos cuadrados iterativos, que puede utilizarse para resolver GLMs, también funciona para la distribución de Laplace (es decir. para desviaciones absolutas ), lo que equivale a hallar la mediana (o en la versión generalizada otros cuantiles).
Distribución de errores desconocida
Robustez
La mediana u otros cuantiles tienen la ventaja de que son muy robustos con respecto al tipo de distribución. Los valores reales no importan mucho y a los cuantiles sólo les importa el orden. Así que no importa cuál sea la distribución, minimizar los residuos absolutos (que equivale a encontrar los cuantiles) funciona muy bien.
La cuestión se vuelve aquí compleja y amplia y depende del tipo de conocimiento que tengamos o no sobre la función de distribución. Por ejemplo, una distribución puede ser aproximadamente normal, pero con algunos valores atípicos adicionales. Esto se puede solucionar eliminando los valores extremos. Esta eliminación de los valores extremos funciona incluso en la estimación del parámetro de localización de la Distribución de Cauchy donde la media truncada puede ser un mejor estimador que la mediana. Así que no sólo para la situación ideal cuando se cumplen los supuestos, sino también para algunas aplicaciones menos ideales (por ejemplo, valores atípicos adicionales) puede haber buenos métodos robustos que sigan utilizando alguna forma de suma de residuos al cuadrado en lugar de suma de residuos absolutos.
Imagino que la regresión con residuos truncados podría ser mucho más compleja desde el punto de vista computacional. Así que en realidad puede ser regresión cuantil que es el tipo de regresión que se realiza por la razón de que es computacionalmente más simple (no más sencillo que los mínimos cuadrados ordinarios, pero sí más sencillo que truncado mínimos cuadrados).
Parcial/imparcial
Otra cuestión son los estimadores sesgados frente a los insesgados. En el apartado anterior he descrito la estimación de máxima verosimilitud para la media, es decir, la solución de mínimos cuadrados, como un estimador bueno o preferible porque suele tener la varianza más baja de todos los estimadores insesgados (cuando los errores tienen una distribución normal). Pero los estimadores sesgados pueden ser mejores (menor suma esperada del error cuadrático).
Esto hace que la cuestión vuelva a ser amplia y compleja. Hay muchos estimadores diferentes y muchas situaciones distintas para aplicarlos. El uso de una función de pérdida de suma de residuos al cuadrado adaptada suele funcionar bien para reducir el error (por ejemplo, todo tipo de métodos de regularización), pero puede que no tenga por qué funcionar bien en todos los casos. Intuitivamente, no es extraño imaginar que, puesto que la función de pérdida de la suma de los residuos al cuadrado suele funcionar bien para todos los estimadores insesgados, el estimador insesgado óptimo sea probablemente algo parecido a una función de pérdida de la suma de los residuos al cuadrado.