41 votos

¿Por qué el cuadrado de los residuos en lugar de absolutos de los residuos en la estimación OLS?

¿Por qué estamos usando los cuadrados de los residuos en lugar de la absoluta residuos en la estimación OLS?

Mi idea era usar el cuadrado de los valores de error, por lo que los residuos por debajo de los armarios de la línea (que luego son negativos), todavía tiene que ser capaz de ser añadido a la positiva errores. De lo contrario, podríamos tener un error de 0 simplemente porque un enorme error positivo puede cancelar con un enorme error negativo.

Entonces, ¿por qué la plaza, en lugar de simplemente tomar el valor absoluto? Es que debido a que el extra de la pena para el mayor de los errores (en lugar de 2, siendo 2 veces el error de 1, es 4 veces el error de 1 cuando nos cuadrado).

27voto

Patrick Puntos 183

No puedo dejar de citar Huber, Estadísticas Robustas, p.10 en este (lo siento, la cita es demasiado largo para caber en un comentario):

Dos consagradas por el tiempo de las medidas de dispersión son la media desviación absoluta

$$d_n=\frac{1}{n}\sum|x_i-\bar{x}|$$

y la media de los cuadrados de la desviación

$$s_n=\left[\frac{1}{n}\sum(x_i-\bar{x})^2\right]^{1/2}$$

Hubo una disputa entre Eddington (1914, pág.147) y Fisher (1920, nota a pie de página en la página. 762) sobre los méritos relativos de $d_n$ y $s_n$.[...] Fisher aparentemente resuelto la cuestión señalando que para el normal observaciones $s_n$ es de alrededor de un 12% más eficiente que la $d_n$.

Por la relación entre la media condicional $\hat{y}$ y la incondicional la media de $\bar{x}$ un argumento similar se aplica a los residuos.

24voto

AdamSane Puntos 1825

Los dos lo hacen.

Mínimos cuadrados es más fácil, y el hecho de que para variables aleatorias independientes "desviaciones agregar" significa que es mucho más conveniente; por ejemplo, la capacidad de la partición de varianzas es particularmente útil para la comparación de modelos anidados. Es un poco más eficiente en la normal (mínimos cuadrados, máxima verosimilitud), que podría parecer una buena justificación; sin embargo, algunos estimadores robustos con ruptura de alto puede tener sorprendentemente alta eficiencia en la normal.

Pero L1 normas son sin duda utilizado para problemas de regresión y en estos días, relativamente a menudo.

Si utiliza R, usted puede encontrar la discusión en la sección 5 aquí útil:

http://socserv.mcmaster.ca/jfox/Books/Companion/appendix/Appendix-Robust-Regression.pdf

(aunque las cosas antes de que en la M de estimación también es relevante, ya que también es un caso especial de que)

18voto

Eero Puntos 1612

Una cosa que no se ha mencionado todavía es la singularidad. El enfoque de mínimos cuadrados siempre produce un único "mejor" respuesta. Cuando la minimización de la suma del valor absoluto de los residuos es posible que puede haber un número infinito de líneas que todos tienen la misma suma absoluta de los residuos (el mínimo). Que de esos línea debe ser utilizado?

17voto

Awais Tariq Puntos 116

Cuando el problema se expresa estocásticamente: $Y=aX+b+\epsilon$ donde $\epsilon$ se distribuye normalmente, la estimación de máxima verosimilitud es la estimación OLS - no la mínima desviación absoluta (MAD) estimación. Así que es bueno.

Además, hay un fuerte vínculo entre la estimación OLS y álgebra lineal. $\hat{Y}$ es una función lineal de $Y$ --- de hecho, es una proyección sobre un subespacio definido por las variables independientes.

Un buen montón de cosas suceden con OLS --- LOCO, no tanto. Y como @user603 señala, OLS son más eficientes (donde el modelo normal tiene). Es menos robusto, por supuesto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X