20 votos

cuadrar las cosas en estadística- razonamiento generalizado

¿Por qué cuadras las cosas en las estadísticas? Me he encontrado con esto muchas veces, tanto en clases de minería de datos como de estadística, pero nadie ha sido capaz de darme una respuesta. Un ejemplo concreto es la suma de las puntuaciones de desviación en estadística, que hay que elevar al cuadrado (de lo contrario, la suma es 0). ¿Por qué se elevan al cuadrado en lugar de utilizar otro método, como el valor absoluto?

Diferencia entre pregunta previa: Si tiene una respuesta para el problema anterior, ¿se aplica su respuesta a la mayoría de las estadísticas que hacen esto? Si no es así, ¿por qué no?

0 votos

Véase también este para más información

0 votos

(En general, no creo que se deba reabrir este hilo. Sin embargo, estoy medio inclinado a tratar de tener que reabrirlo sólo para que yo pudiera conceder una recompensa a @BenKuhn respuesta a continuación, y luego volver a cerrarlo).

0 votos

Sí, por favor. Ha sido una respuesta increíblemente detallada. Me encantaría recompensarle por ello.

35voto

user60642 Puntos 6

$\newcommand{\predicted}{{\rm predicted}}\newcommand{\actual}{{\rm actual}}\newcommand{\Var}{{\rm Var}}$ De hecho, el error absoluto suele estar más cerca de lo que "importa" a la hora de hacer predicciones a partir de un modelo. Por ejemplo, si compra una acción esperando que su precio futuro sea $P_{\predicted}$ y su precio futuro es $P_{\actual}$ en cambio, pierdes dinero proporcional a $(P_{\predicted} - P_{\actual})$ no su cuadrado. Lo mismo ocurre en muchos otros contextos.

¿Por qué el error al cuadrado?

El error al cuadrado tiene muchas propiedades matemáticas interesantes. Haciéndome eco de otras respuestas aquí, yo diría que muchas de ellas son meramente "convenientes": podríamos optar por utilizar el error absoluto en su lugar si no planteara problemas técnicos a la hora de resolver problemas. Por ejemplo:

  • Si $X$ es una variable aleatoria, entonces el estimador de $X$ que minimiza el error cuadrático es la media, $E(X)$ . Por otra parte, el estimador que minimiza el error absoluto es la mediana, $m(X)$ . La media tiene propiedades mucho más agradables que la mediana; por ejemplo, $E(X + Y) = E(X) + E(Y)$ pero no existe una expresión general para $m(X + Y)$ .

  • Si tiene un vector $\vec X = (X_1, X_2)$ estimado por $\vec x = x_1, x_2$ entonces para el error al cuadrado no importa si se consideran los componentes por separado o juntos: $||\vec X - \vec x||^2 = (X_1 - x_1)^2 + (X_2 - x_2)^2$ por lo que el error al cuadrado de los componentes sólo se suma. No se puede hacer eso con el error absoluto. Esto significa que el error al cuadrado es independiente de las re-parametrizaciones por ejemplo, si define $\vec Y_1 = (X_1 + X_2, X_1 - X_2)$ entonces los estimadores de desviación mínima cuadrática para $Y$ y $X$ son iguales, pero los estimadores de desviación mínima absoluta no lo son.

  • Para variables aleatorias independientes, las varianzas (errores cuadrados esperados) se suman: $\Var(X + Y) = \Var(X) + \Var(Y)$ . No ocurre lo mismo con el error absoluto esperado.

  • Para una muestra de una distribución gaussiana multivariante (en la que la densidad de probabilidad es exponencial en la distancia al cuadrado desde la media), todas sus coordenadas son gaussianas, independientemente del sistema de coordenadas que se utilice. Para una distribución multivariante de Laplace (como una gaussiana pero con distancia absoluta, no al cuadrado), esto no es cierto.

  • El error cuadrático de un clasificador probabilístico es un regla de puntuación adecuada . Si tuvieras un oráculo que te dijera la probabilidad real de cada clase para cada elemento, y te estuvieran puntuando en función de tu puntuación Brier, tu mejor apuesta sería predecir lo que el oráculo te dijera para cada clase. Esto no es cierto para el error absoluto. (Por ejemplo, si el oráculo le dice que $P(Y=1) = 0.9$ y luego predecir que $P(Y=1) = 0.9$ arroja una puntuación esperada de $0.9\cdot 0.1 + 0.1 \cdot 0.9 = 0.18$ En su lugar, debería predecir que $P(Y=1) = 1$ para una puntuación esperada de $0.9\cdot 0 + 0.1 \cdot 1 = 0.1$ .)

Sin embargo, algunas coincidencias o conveniencias matemáticas relacionadas con el error al cuadrado son más importantes. No plantean problemas técnicos, sino que nos dan razones intrínsecas por las que minimizar el error al cuadrado puede ser una buena idea:

  • Al ajustar una distribución gaussiana a un conjunto de datos, el ajuste de máxima verosimilitud es el que minimiza el error al cuadrado, no el error absoluto.

  • Cuando se hace reducción de dimensionalidad, encontrar la base que minimiza el al cuadrado el error de reconstrucción arroja análisis de componentes principales que es fácil de calcular, independiente de las coordenadas y tiene una interpretación natural para las distribuciones gaussianas multivariantes (encontrar los ejes de la elipse que forma la distribución). Existe una variante llamada "PCA robusto" que a veces se aplica para minimizar el error absoluto de reconstrucción, pero parece estar menos estudiada y ser más difícil de entender y calcular.

Una mirada más profunda

Cabe preguntarse si existe alguna verdad matemática profunda que subyazca a las múltiples conveniencias del error al cuadrado. Por lo que yo sé, hay unas cuantas (que están relacionadas en cierto sentido, pero no son, diría yo, lo mismo):

Diferenciabilidad

El error al cuadrado es diferenciable en todas partes mientras que el error absoluto no lo es (su derivada es indefinida a 0). Esto hace que el error al cuadrado se preste más a las técnicas de optimización matemática . Para optimizar el error al cuadrado, basta con establecer su derivada igual a 0 y resolver; para optimizar el error absoluto a menudo se requieren técnicas más complejas.

Productos interiores

El error al cuadrado es inducido por un producto interior en el espacio subyacente. Un producto interior es básicamente una forma de "proyectar vectores $x$ a lo largo del vector $y$ ," o calcular "cuánto cuesta $x$ apuntan en la misma dirección que $y$ ." En dimensiones finitas es el producto interior estándar (euclidiano) $\langle a, b\rangle = \sum_i a_ib_i$ . Los productos internos son los que nos permiten pensar geométricamente sobre un espacio, porque dan una noción de:

  • un ángulo recto ( $x$ y $y$ son ángulos rectos si $\langle x, y\rangle = 0$ );
  • y una longitud (la longitud de $x$ es $||x|| = \sqrt{\langle x, x\rangle}$ ).

Por "el error al cuadrado es inducido por el producto interior euclidiano" quiero decir que el error al cuadrado entre $x$ y $y$ es $||x-y||$ la distancia euclidiana entre ellos. De hecho, el producto interno euclidiano es, en cierto sentido, el "único producto interno posible" independiente del eje en un espacio vectorial de dimensiones finitas, lo que significa que el error al cuadrado tiene propiedades geométricas únicamente agradables.

Para las variables aleatorias, de hecho, se puede definir es un producto interno similar: $\langle X, Y\rangle = E(XY)$ . Esto significa que podemos pensar en una "geometría" de variables aleatorias, en la que dos variables forman un "ángulo recto" si $E(XY) = 0$ . No por casualidad, la "longitud" de $X$ es $E(X^2)$ que está relacionada con su varianza. De hecho, en este marco, "las varianzas independientes se suman" no es más que una consecuencia del Teorema de Pitágoras:

\begin{align} \Var(X + Y) &= ||(X - \mu_X)\, + (Y - \mu_Y)||^2 \\ &= ||X - \mu_X||^2 + ||Y - \mu_Y||^2 \\ &= \Var(X)\quad\ \ \, + \Var(Y). \end{align}

Más allá del error cuadrático

Dadas estas bonitas propiedades matemáticas, ¿alguna vez no ¿quieres utilizar el error al cuadrado? Bueno, como mencioné al principio, a veces el error absoluto se acerca más a lo que nos "importa" en la práctica. Por ejemplo, si los datos tienen colas más gruesas que la de Gauss, minimizar el error cuadrático puede dar demasiada importancia a los puntos periféricos.

El error absoluto es menos sensible a estos valores atípicos. (Por ejemplo, si se observa un valor atípico en la muestra, la media de minimización del error cuadrático cambia proporcionalmente a la magnitud del valor atípico, pero apenas cambia la mediana de minimización del error absoluto). Y aunque el error absoluto no goza de las mismas propiedades matemáticas que el error cuadrático, eso significa que los problemas de error absoluto son más complejos que los de error cuadrático. más difícil de resolver no es que sean objetivamente peores en algún sentido. El resultado es que, a medida que han ido avanzando los métodos computacionales, hemos podido resolver numéricamente problemas con errores absolutos, lo que ha dado lugar al surgimiento del subcampo de la métodos estadísticos robustos .

De hecho, existe una correspondencia bastante buena entre algunos métodos de error cuadrático y de error absoluto:

Squared error           | Absolute error
========================|============================
Mean                    | Median
Variance                | Expected absolute deviation
Gaussian distribution   | Laplace distribution
Linear regression       | Quantile regression
PCA                     | Robust PCA
Ridge regression        | LASSO

A medida que mejoremos en los métodos numéricos modernos, sin duda encontraremos otras técnicas útiles basadas en el error absoluto, y la brecha entre los métodos de error cuadrático y de error absoluto se reducirá. Pero debido a la conexión entre el error cuadrático y la distribución de Gauss, no creo que desaparezca nunca por completo.

4voto

anand Puntos 199

Se debe a la estrecha relación entre muchos métodos estadísticos y conceptos geométricos como las proyecciones, las distancias y el Teorema de Pitágoras. Por ejemplo, supongamos que vemos los valores de los datos $(x_1,x_2,\ldots,x_n)$ como un punto en $n$ -espacio dimensional. Entonces la SD muestral es $1/\sqrt {n-1}$ veces la distancia entre este punto y el punto medio $(\bar x,\bar x,\ldots,\bar x)$ . Y las sumas de cuadrados en anova unidireccional realmente satisfacen el Teorema de Pitágoras, enmarcado de una manera similar.

1voto

bradgonesurfing Puntos 146

Porque facilita las matemáticas. Se pueden utilizar otras técnicas, por ejemplo para regresión lineal. Estos otros métodos tienden a ser más complicados en los detalles de implementación y tienen soluciones de forma cerrada menos elegantes. Por eso suelen ignorarse hasta que un proyecto exige su uso.

0voto

BrewStats Puntos 60

Honestamente, es porque hace las matemáticas más fáciles que si se utilizara el valor absoluto. De hecho, Laplace intentó utilizar el valor absoluto en lugar de las diferencias al cuadrado. Hace las cosas bastante molestas. Aquí hay un enlace a una descripción de la distrubución de Laplace http://en.wikipedia.org/wiki/Laplace_distribution . Antes de los ordenadores, el uso del valor absoluto en lugar de las diferencias al cuadrado complicaba la vida al estadístico.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X