Loading [MathJax]/extensions/TeX/mathchoice.js

69 votos

¿Por qué usamos un Mínimo de Cuadrados?

Me he estado preguntando por un tiempo ahora, si hay algún matemático profundo o la significación estadística para encontrar la línea que minimiza el cuadrado de los errores entre la línea y los puntos de datos.

Si utilizamos un método menos común como LAD, donde acabamos de considerar que la desviación absoluta, entonces los valores atípicos hacer menos diferencia en el modelo final, mientras que si tomamos el cubo de el error (o de cualquier otro poder mayor que 2), entonces los valores atípicos son mucho más significativo que con el modelo de mínimos cuadrados.

Supongo que lo que estoy preguntando es , matemáticamente, es la de recaudar el error a la potencia de 2 que realmente especial. Es decir más "exacta" en el sentido de elevar el error en el poder de 1.95 o 2.05???

Gracias!

46voto

Michael Hardy Puntos 128804

Carl Gauss (el más famoso de la persona para vivir en la tierra en el siglo 19, excepto para las personas que no trabajan en las ciencias físicas y matemáticas) mostró que menos plazas de las estimaciones coinciden con el de máxima probabilidad estimaciones cuando se supone independiente de la distribución normal de los errores con 0 media y la igualdad de varianzas.

POSTSCRIPT cuatro años más tarde:

Aquí hay un par de puntos sobre la crianza de los errores para el poder 2 en vez de 1.95 o 2.05 o lo que sea.

  • La varianza es la media del cuadrado de la desviación de la media. La varianza de la suma de diez mil variables aleatorias es la suma de sus varianzas. Eso no funciona para otros poderes del valor absoluto de la desviación. Esto significa que si usted lanza un dado 6000 de veces, por lo que el número esperado de 1s que se obtiene es de 1000, entonces usted también sabe que la varianza de la cantidad de 1s es de 1000×16×56, así que si usted desea que la probabilidad de que el número de cabezas es de entre 990 y 1020, se puede aproximar la distribución por la distribución normal con la misma media y la misma varianza. No se puede hacer eso si usted no sabe de la varianza, y no podía saber las desviaciones, sin que la suma de las varianzas, y si el exponente es cualquier cosa, además de 2, entonces usted no tiene que. (Curiosamente, ¿ han aditividad con los 3rd poderes de las desviaciones, pero no con los 3rd poderes de los valores absolutos de las desviaciones.)

  • Supongamos que los errores no son necesariamente independientes, pero están correlacionadas, y no necesariamente son idénticamente distribuidas, pero tienen las mismas desviaciones y el valor esperado de 0. Usted tiene Yi=α+βxi+errori. El Yy xs se observan; la xs son tratados como no aleatoria (de ahí la letra minúscula) los coeficientes de α y β son dos ser estimado. El de mínimos cuadrados estimado de β es ˆβ=i(xiˉx)(YiˉY)i(xiˉx)2 donde ˉx y ˉY son los respectivos promedios de la observó x y Y los valores. Note que (1) es lineal en el vector de la observó Y los valores. A continuación, entre todos los estimadores insesgados de de β que es lineal en el vector de Y los valores, el uno con la menor varianza es el de mínimos cuadrados estimador. Y lo mismo para ˆα. Que es el Gauss--teorema de Markov.

22voto

Knox Puntos 1543

Una razón muy práctica para el uso de los errores cuadráticos es que vamos a querer para minimizar el error, y la minimización de una función cuadrática es fácil - usted sólo diferenciar y establecer las derivadas a cero, lo que resulta en un lineal de la ecuación de la que hemos siglos de trucos para ayudarnos a resolver.

Voy a caminar a través de un sencillo ejemplo: encontrar la mejor línea a través del origen que se ajusta a los puntos de datos (yi,xi) por i=1,, n. Nuestro modelo de datos es

yi=axi+εi

donde εi es el error de la aproximación para el ith punto de datos. Vamos a subir cada error para la alimentación de $2 dólares y, a continuación, agregue a todos ellos:

E=ni=1ε2i=ni=1(yiaxi)2

Para reducir este error con respecto a a, podemos diferenciar y establecer la derivada igual a cero:

E=2ni=1xi(yiaxi)=0

que reorganiza a

ni=1xiyi=ni=1x2i

así tenemos el estándar de mínimos cuadrados estimador de la pendiente,

a=ni=1xiyini=1x2i

Si nos habían planteado los errores a cualquier otro poder que el de 2 antes de sumar ellos, la ecuación resultante sería mucho más difícil de resolver. Minimizando otra cosa que el error cuadrático es generalmente sólo alcanzable con un método numérico.

17voto

tom Puntos 1397

16 meses después de hacer la pregunta, me he topado con diferentes y muy physicsy respuesta, que espero sea útil a alguien.

Supongamos que en el fin de determinar m parámetros de un modelo:

Salida=f(Entradas, parámetros) hemos realizado N>m experimentos. Queremos utilizar la información de estos experimentos para mejor elegir los m parámetros (de modo que la salida del modelo real y el valor experimental están tan cerca como sea posible).

Ahora viene la physicsy parte: permite la construcción de un N-dimensional en el espacio de fase, de modo que el N (determinado experimentalmente) salidas de nuestro N experimentos están representados por un solo punto en este espacio (el sistema de coordenadas de este punto son los resultados de cada experimento). Llamamos a esto el 'puntos de datos'.

En segundo lugar, si elegimos un conjunto arbitrario de parámetros de nuestro modelo, se pueden usar las entradas para cada experimento para la construcción de un 'predijo' salida para cada experimento (por el análisis de las entradas a través de nuestro modelo). Habrá N predijo salidas (una para cada experimento) y estos forman un segundo punto en el espacio de fase, dicen que la predicción de punto'. Como podemos variar los parámetros de este punto se mueve en un m-dimensional subespacio del espacio de fase. Y este es el punto importante:

La suma de los cuadrados de los términos de error (SSE) es el cuadrado de la distancia entre estos dos puntos en el $$N-dimensional en el espacio de fase, sólo por Pitágoras Teorema.

Para minimizar la suma de cuadrados de error es equivalente a la minimización de la distancia entre los puntos de datos y la predicción de punto en el $$N-dimensional del espacio de fases - una manera muy natural de calibrar nuestro modelo.

Finalmente, a partir de este Gauss resultado tiene sentido - si el punto de datos puede variar, normalmente, con una media de 0 y la igualdad de las varianzas, el error será esféricamente simétricas alrededor de los puntos de datos, y por lo que cuanto más nuestra predicción es que los puntos de datos en el espacio, la mejor, y la minimización de esta distancia debe dar la máxima probabilidad del estimador.

9voto

lhf Puntos 83572

Lea la sección 5.14 ¿Por mínimos Cuadrados? de Meyer de la Matriz de Análisis y Aplicada Álgebra Lineal, que está disponible en línea).

7voto

zaki Puntos 1

Considerar n(x1,x2,,xn) mediciones que tienen una distribución normal. Entonces la probabilidad de que sólo una de las mediciones se producirá está dada por P(X=xi)=e(xixT)2/h2 - donde xT es el valor verdadero de la variable x para ser medido. (Estoy ignorando la raíz de π factor de aquí porque se produce para todos los errores y no es central para nuestro argumento.). Ahora la probabilidad de que todas las mediciones se producen en un experimento es dada por el producto: P(X=x1)P(X=x2)P(X=x3)P(X=xn)- (suponiendo que las mediciones son independientes el uno del otro - yo.e el error de una medición no será prorrogada para el otro, lo cual sería el caso si el experimento fue bien diseñado). La resultante de probabilidad está dada por:

P(x)=e(d21+d22++d2n)/h2 donde di=xixT

Ahora nuestro objetivo es encontrar el valor de x para los cuales la probabilidad es máxima. Este sería el verdadero valor de la medición. La anterior probabilidad es máxima cuando el exponente es mínimo (recuerde que el signo negativo del exponente) y el exponente no es sino la suma de los cuadrados de las desviaciones de las mediciones del valor verdadero. Esta es la idea detrás de la suma de los cuadrados mínimos.

Podríamos utilizar el cálculo: dP(x)dx=0

Si se resuelve la ecuación resultante se encuentra que el valor de x es (x1+x2+x3++xn)/ n - la arithemetic media de las mediciones. Es por eso que utilizamos la SIENTO mucho. En un razonablemente bien diseñado el experimento, donde la probabilidad de pequeños errores, es grande y de grandes errores es pequeño y positivo y negativo de los errores ocurren con la misma probabilidad (que es cuando se utiliza una distribución normal), el AM es la más probable verdadero valor.

Pero recuerde que, el método de mínimos cuadrados sólo es aplicable cuando las medidas se puede suponer que tienen una distribución normal. En otros casos, el método de mínimos cuadrados no dar la más probable verdadero valor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X