61 votos

¿De dónde proviene el nombre XSR?

Aparentemente fuentes confiables afirman que la variable dependiente debe ser distribuido normalmente:

Los supuestos del modelo: $Y$ se distribuye normalmente, los errores son normalmente distribuido, $e_i \sim N(0,\sigma^2)$, e independiente, y $X$ es fijo, y constante de la varianza $\sigma^2$.

Penn State, STAT 504 Análisis de Datos Discretos

En segundo lugar, el análisis de regresión lineal requiere que todas las variables a ser multivariante normal.

StatisticsSolutions, los Supuestos de la Regresión Lineal

Esto es apropiado cuando la variable de respuesta tiene un normal distribución

Wikipedia, modelo lineal Generalizado

Hay una buena explicación de cómo o por qué de este error se ha extendido? Es su origen?

Relacionados con la

38voto

Mark White Puntos 569

Hay una buena explicación de cómo y por qué de este error se ha extendido? Es su origen?

Nos suelen enseñar a los estudiantes de pregrado de una versión "simplificada" de las estadísticas en muchas disciplinas. Estoy en la psicología, y cuando trato de decirle a los estudiantes de pregrado que los p-valores son "la probabilidad de los datos-o más extrema de datos, dado que la hipótesis nula es verdadera," los compañeros me dicen que estoy cubriendo más detalle de lo que necesita cubrir. Que me estoy haciendo más difícil que tiene que ser, etc. Dado que los estudiantes en clases tienen una gama tan amplia de confort (o falta de ella) con las estadísticas, los instructores generalmente mantenerlo simple: "consideramos que es ser un seguro de encontrar si p < .05," por ejemplo, en lugar de darles la definición real de un p-valor.

Creo que aquí es donde la explicación de por qué la idea errónea se ha diseminado. Por ejemplo, usted puede escribir el modelo como:

$Y = \beta_0 + \beta_1X + \epsilon$ donde $\epsilon \sim \text{N}(0, \sigma^2_\epsilon)$

Esto puede ser re-escrita como:

$Y|X \sim \text{N}(\beta_0 + \beta_1X, \sigma^2_\epsilon)$

Lo que significa que "Y, condicional en X, se distribuye normalmente con una media de los valores pronosticados y algunos varianza."

Esto es difícil de explicar, así como la taquigrafía personas podrían decir: "Y deben ser distribuidos normalmente." O cuando se les explicó a ellos originalmente, la gente mal las condicionales parte -, ya que es, honestamente, confuso.

Así, en un esfuerzo para no hacer las cosas muy complicado, los instructores sólo simplificar lo que están diciendo, como para no excesivamente confundir a la mayoría de los estudiantes. Y entonces la gente continúe en su enseñanza de la estadística o de la práctica de la estadística con esa idea errónea. Yo mismo no entiende bien el concepto hasta que empecé a hacer Bayesiano de modelado en Stan, que requiere que usted escriba sus suposiciones de esta manera:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

También, en una gran cantidad de paquetes estadísticos con una interfaz gráfica de usuario (mirando a usted, SPSS), es fácil comprobar si la distribución marginal sea distribuido normalmente (simple histograma) que es para comprobar si los residuos están normalmente distribuidos (ejecutar la regresión, guardar residuos, ejecutar histograma de los residuos).

Por lo tanto, creo que el concepto erróneo es debido principalmente a los instructores tratando de cortar los detalles para mantener a los estudiantes se confundan, auténtico-y comprensible-confusión entre la gente de aprendizaje de la manera correcta, y ambos de estos reforzado por la facilidad de comprobación de la marginal de la normalidad en la más fácil de usar paquetes estadísticos.

24voto

Aaron Puntos 36

El análisis de regresión es difícil para los principiantes debido a que hay diferentes resultados que están implícitas en las diferentes suposiciones iniciales. Más débil suposiciones iniciales pueden justificar algunos de los resultados, pero usted puede conseguir mejores resultados cuando se agrega más fuerte supuestos. Las personas que no están familiarizados con la totalidad de la derivación matemática de los resultados a menudo puede malinterpretar los supuestos necesarios para un resultado, ya sea por plantear su modelo demasiado débil para obtener un resultado deseado, o plantear algunas suposiciones innecesarias en la creencia de que estos son necesarios para un resultado.

Aunque es posible añadir más fuerte supuestos para obtener resultados adicionales, el análisis de regresión se refiere a la distribución condicional de la respuesta del vector. Si el modelo va más allá de esto, entonces es que entren en el territorio de análisis multivariante, y no es estrictamente un (solo) un modelo de regresión. El asunto se complica aún más por el hecho de que es común para referirse a los resultados de distribución de regresión, sin que siempre sea cuidadoso para especificar que están condicionadas las distribuciones (dadas las variables explicativas en el diseño de la matriz). En los casos donde los modelos van más allá de distribuciones condicionales (asumiendo una distribución marginal para la exposición de vectores) el usuario debe tener cuidado al especificar esta diferencia; por desgracia, no siempre las personas son cuidadosos con eso.


Homoskedastic modelo de regresión lineal: Las primeras punto de partida que se utiliza generalmente es asumir el modelo de formulario y los primeros dos errores momentos sin ningún tipo de suposición de normalidad en todos los:

$$\boldsymbol{Y} = \boldsymbol{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}\quad \quad \mathbb{E}(\boldsymbol{\varepsilon} | \boldsymbol{x}) = \boldsymbol{0} \quad \quad \mathbb{V}(\boldsymbol{\varepsilon} | \boldsymbol{x}) \propto \boldsymbol{I}.$$

Esta configuración es suficiente para permitir que usted para obtener el estimador de MCO de los coeficientes, el imparcial estimador para la varianza de error, los residuos, y en los momentos de todas estas cantidades al azar (condicional en las variables explicativas en el diseño de la matriz). No permiten obtener la totalidad de la distribución condicional de estas cantidades, pero sí permite apelar a asintótico de las distribuciones de si $n$ es grande y algunas suposiciones adicionales se colocan en la limitación de la conducta de $\boldsymbol{x}$. Ir más allá es común asumir dar una específica forma de distribución para el vector de error.

Normal errores: la Mayoría de los tratamientos de la homoskedastic modelo de regresión lineal suponga que el vector de error se distribuye normalmente, que en combinación con el momento en que supuestos se obtiene:

$$\boldsymbol{\varepsilon} | \boldsymbol{x} \sim \text{N}(\boldsymbol{0}, \sigma^2 \boldsymbol{I}).$$

Esta suposición es suficiente para garantizar que el estimador de MCO de los coeficientes es el MLE para el modelo, y también significa que el coeficiente de estimador y de los residuos están normalmente distribuidos y el estimador de la varianza de error tiene una escala de chi-cuadrado de distribución (todos los condicional en las variables explicativas en el diseño de la matriz). También se asegura de que la respuesta vector es condicionalmente distribuidos normalmente. Esto da a los resultados de distribución condicional en las variables explicativas en el análisis, que permite la construcción de intervalos de confianza y pruebas de hipótesis. Si el analista quiere hacer conclusiones acerca de la distribución marginal de la respuesta, se necesita ir más allá y asumir una distribución de las variables explicativas en el modelo.

Conjuntamente normal de las variables explicativas: Algunos tratamientos de la homoscedástica modelo de regresión lineal ir más allá de los tratamientos estándar, y no en la condición de fijo de variables explicativas. (Podría decirse que esta es una transición de la regresión de modelado y en el análisis multivariante.) El modelo más común de este tipo se supone que en la exposición de los vectores son IID conjunta aleatoria normal vectores. Dejando $\boldsymbol{X}_{(i)}$ $i$th explicativo vector ($i$th fila del diseño de la matriz) tenemos:

$$\boldsymbol{X}_{(1)}, ..., \boldsymbol{X}_{(n)} \sim \text{IID N}(\boldsymbol{\mu}_X, \boldsymbol{\Sigma}_X).$$

Esta suposición es suficiente para asegurar que la respuesta vector es marginalmente distribuidos normalmente. Este es un fuerte de la asunción y por lo general no imponen en la mayoría de los problemas. Como se ha indicado, este toma el modelo fuera del territorio de la regresión de modelado y en el análisis multivariante.

22voto

user164061 Puntos 281

"Y debe ser distribuido normalmente'

debe?


En los casos que usted menciona es descuidado lenguaje (abreviar "el error en Y debe ser normalmente distribuida"), pero que en realidad no (fuertemente) decir que la respuesta debe ser distribuido normalmente, o al menos no me parece que sus palabras fueron pensados como eso.

El Penn State material del curso

habla de "una variable continua $Y$", pero también sobre "$Y_i$" como en $$E(Y_i) = \beta_0 + \beta_1 x_i$$ where we could regard $Y_i$, que es como la ameba llamado en los comentarios 'condicional', normalmente distribuidas,

$$Y_i \sim N(\beta_0 + \beta_1x_i,\sigma^2)$$

El artículo utiliza $Y$ $Y_i$ indistintamente. En todo el artículo se habla de la distribución de Y', por ejemplo:

  • a la hora de explicar algunas variantes de GLM (regresión logística binaria),

    Componente aleatoria: La distribución de los $Y$ es asumido $Binomial(n,\pi)$,...

  • en algunos definición

    Componente aleatoria – se refiere a la distribución de probabilidad de la variable de respuesta ($Y$); por ejemplo, la distribución normal para $Y$ en el de regresión lineal, o de la distribución binomial para $Y$ en la regresión logística binaria.

sin embargo, en algún otro punto que también se refieren a $Y_i$ en lugar de $Y$:

  • La variable dependiente $Y_i$ NO necesita ser distribuido normalmente, pero normalmente se asume una distribución de un aumento exponencial de la familia (por ejemplo, binomial, Poisson, multinomial, normal,...)

El statisticssolutions página web

es un muy breve, simplificada, estilizada descripción. No estoy seguro de que usted debe tomar esto en serio. Por ejemplo, se habla de

..requiere que todas las variables a ser multivariante normal...

así que no es sólo la variable de respuesta,

y también el de la 'multivariante descriptor es vaga. No estoy seguro cómo conseguir que la interpreta.

El artículo de la wikipedia

tiene un adicional de contexto se explica en paréntesis:

Ordinario de regresión lineal predice que el valor esperado de una determinada cantidad desconocida (la variable de respuesta, una variable aleatoria) como un combinación lineal de un conjunto de valores observados (predictores). Este implica que un cambio constante en un predictor conduce a una constante el cambio en la variable de respuesta (es decir, lineal-modelo de respuesta). Esto es apropiado cuando la variable de respuesta tiene un normal distribución (intuitivamente, cuando una variable de respuesta puede variar esencialmente indefinidamente en cualquier dirección sin "cero valor", o más en general, para cualquier cantidad que sólo varía en un cantidad relativamente pequeña, por ejemplo, humanos alturas).

Este 'no se ha fijado un valor cero', parece a punto para el caso de que una combinación lineal $y+\epsilon$ al $\epsilon \sim N(0,\sigma)$ tiene un infinito de dominio (desde menos infinito a más infinito), mientras que a menudo muchas variables tienen algunos finito valor de corte (ya que se cuenta no permite valores negativos).

La línea en particular se ha añadido el 8 de Marzo de 2012, pero tenga en cuenta que la primera línea del artículo de Wikipedia todavía se lee "flexible generalización de ordinario la regresión lineal que permite la respuesta de las variables que han de error de los modelos de distribución de otros de una distribución normal" y no es tanto (no en todas partes) mal.


Conclusión

Así que, basándose en estos tres ejemplos (que de hecho podría generar malentendidos, o al menos podría ser interpretado) yo no diría que "este error se ha extendido". O por lo menos no me parece que la intención de estos tres ejemplos es argumentar que debe ser distribuido normalmente (aunque sí recuerdo que este problema ha surgido antes de aquí en stackexchange, el intercambio entre la distribución normal de los errores y se distribuye normalmente variable de respuesta es fácil hacer).

Así, la idea de que "debe ser normalmente distribuida" me parece no como una generalizada creer/error de concepto (como en algo que se extiende como un arenque rojo), pero más como un error común (que no es la propagación , pero realizadas de forma independiente cada vez).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X