61 votos

¿Cómo utiliza la regresión lineal la distribución normal?

En la regresión lineal, se supone que cada valor predicho se ha seleccionado de una distribución normal de valores posibles. Vea abajo.

Pero, ¿por qué se supone que cada valor predicho proviene de una distribución normal? ¿Cómo utiliza esta suposición la regresión lineal? ¿Qué pasa si los valores posibles no se distribuyen normalmente?

introduzca la descripción de la imagen aquí

59voto

kjetil b halvorsen Puntos 7012

La regresión lineal por sí mismo no necesita de la normal (gaussiana) asunción, los estimadores puede ser calculado (por lineal de mínimos cuadrados) sin necesidad de esa hipótesis, y tiene perfecto sentido sin ella.

Pero entonces, como los estadísticos queremos entender algunas de las propiedades de este método, respuestas a preguntas tales como: ¿son los estimadores de mínimos cuadrados óptima en algún sentido? o podemos hacerlo mejor con algún tipo de estimadores? Luego, bajo la normal distribition de los términos de error, podemos demostrar que este estimadores son, de hecho, óptimo, por ejemplo, que "son insesgados de mínima varianza". No hay tal cosa puede ser probado sin el habitual de la asunción.

También, si queremos construir (y analizar las propiedades de las) intervalos de confianza o pruebas de hipótesis, a continuación, utilizamos la normal de la asunción. Pero, en su lugar, podríamos construir intervalos de confianza por otros medios, tales como arranque. Entonces, nosotros no usamos el normal suposición, pero, por desgracia, sin que, podría ser que debemos utilizar algunos otros estimadores de los mínimos cuadrados, tal vez algunos estimadores robustos?

En la práctica, por supuesto, la distribución normal es más una ficción conveniente. Así, la cuestión realmente importante es, que tan cerca de la normalidad qué necesitamos para reclamar el uso de los resultados mencionados anteriormente? Que es mucho más difícil pregunta! Optimalidad resultados no son robustos, por lo que incluso una muy pequeña desviación de la normalidad, podría destruir optimalidad. Que es un argumento en favor de métodos robustos. Para otro punto de vista en este tema, véase mi respuesta a ¿por Qué deberíamos utilizar t errores en lugar de la normal de errores?

Otra pregunta relevante es por Qué es la normalidad de los residuos "apenas importante" para el propósito de la estimación de la recta de regresión?

6voto

chahedous Puntos 43
  1. Pero, ¿por qué es cada valor predicho supone que provienen de una distribución normal?

No hay ninguna razón profunda para él, y usted es libre de cambiar la distribución de la hipótesis, pasando a GLMs, o a la regresión robusta. La PELÍCULA (distribución normal) es muy popular porque es fácil de calcular, muy estable y de residuos, en la práctica, a menudo más o menos normal.

  1. ¿Cómo regresión lineal utilizar esta suposición?

Como cualquier regresión, el modelo lineal (=regresión con errores normal) busca los parámetros que optimizan la probabilidad para la distribución de la asunción. Vea aquí un ejemplo de un cálculo explícito de la probabilidad para un modelo lineal. Si usted toma la probabilidad de registro de un modelo lineal, que resulta ser proporcional a la suma de los cuadrados, y la optimización de las que se pueden calcular de forma bastante cómoda.

  1. Lo que si es posible, los valores no están distribuidos normalmente?

Si desea ajustar un modelo con diferentes distribuciones, el siguiente libro de texto pasos serían los modelos lineales generalizados (GLM), los cuales ofrecen diferentes distribuciones, o en general de modelos lineales, que son todavía normales, pero que se relaje la independencia. Muchas otras opciones son posibles. Si sólo desea reducir el efecto de los valores atípicos, por ejemplo, podría considerar la posibilidad de regresión robusta.

4voto

chaostheory Puntos 840

Esta discusión ¿Qué pasa si los residuos se distribuyen normalmente, pero y no lo está? ha abordado bien esta cuestión.

En resumen, para un problema de regresión, solo asumimos que la respuesta está condicionada normalmente por el valor de x. No es necesario que las variables independientes o de respuesta sean independientes.

0voto

Mike Cargal Puntos 762

Suponemos que la observación$y$ tiene un error aleatorio$\epsilon$ hat es irreductible, es decir,$ \hat{y} = y + \epsilon$. En la mayoría de los casos, asumimos que estos errores irreducibles coinciden con la distribución gaussiana, este tipo de suposición corresponde a la regularización de la norma$l_2$ en el modelo lineal. También podemos asumir que el ruido proviene de la distribución de Laprance , que corresponde a la regularización de la norma$l_1$ en regresión lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X