13 votos

¿Se distribuyen normalmente X e Y más probabilidad de resultar en residuos distribuidos normalmente?

Aquí la interpretación de la suposición de normalidad en la regresión lineal se discute (que la "normalidad" se refiere a la la X y/o Y en lugar de los residuos), y el cartel se pregunta si es posible tener no una distribución normal X y y y todavía tiene una distribución normal de los residuos.

Mi pregunta es: están distribuidos normalmente de X y de y más probabilidades de resultar en una distribución normal de los residuos? Muchas han sido las relacionadas con los puestos, pero no creo que alguien ya hizo esta pregunta en particular.

Me doy cuenta de que esto es quizás un punto trivial, si sólo hay una regresión a hacer, pero por lo menos si hay múltiples pruebas. Así que decir que tengo 100 X variables que tienen todas la misma inclinación y la quiero poner a prueba a todos. Si me transformó todo a una distribución normal sería probable que hubiera menos X las variables de necesidad de re-examen (con diferente/no hay transformación) debido a la falta de una distribución normal de los residuos o un pre-regresión de transformación de ser totalmente arbitrario?

15voto

Sean Hanley Puntos 2428

No. Los residuos son el $Y$ valores condicionales en $X$ (menos de la predicción de la media de $Y$ en cada punto en $X$). Usted puede cambiar $X$ cualquier manera que te gustaría que ($X + 10$, $X^{-1/5}$, $X/\pi$) y el $Y$ valores que corresponden a la $X$ valores en un punto dado en $X$ no va a cambiar. Por lo tanto, la distribución condicional de $Y$ (es decir, $Y | X$) será el mismo. Es decir, será normal o no, igual que antes. (Para entender este tema de manera más completa, puede ayudar a leer mi respuesta a esta pregunta: ¿Qué pasa si los residuos están normalmente distribuidos, pero Y no lo es?)

Lo que el cambio de $X$ puede hacer (dependiendo de la naturaleza de la transformación de datos que utilice) es el cambio en la relación funcional entre la $X$$Y$. Con una no-lineal de variación en $X$ (por ejemplo, para eliminar el sesgo) un modelo correctamente especificado antes de que se convertirá en mal especificada. No-lineal de las transformaciones de $X$ se utilizan a menudo para linealizar la relación entre el$X$$Y$, para hacer la relación más interpretables, o a una dirección diferente pregunta teórica.

Para más información sobre cómo no-lineal de las transformaciones puede cambiar el modelo y las preguntas que el modelo de respuestas (con un énfasis en la transformación de registro), puede ayudar a leer estos excelentes CV hilos:

Lineal transformaciones pueden cambiar los valores de sus parámetros, pero no afectan a la relación funcional. Por ejemplo, si el centro de ambos $X$ $Y$ antes de ejecutar la regresión, la intersección, $\hat \beta_0$, se convertirá en $0$. Del mismo modo, si usted divide $X$ por una constante (digamos a cambio de centímetros a metros) la pendiente será multiplicado por la constante (por ejemplo, $\hat \beta_{1{\rm\ (m)}} = 100 \times \hat \beta_{1{\rm\ (cm)}}$ $Y$ aumento de 100 veces la cantidad de más de 1 metro, ya que será de más de 1 cm).


Por otro lado, los no-lineal de las transformaciones de $Y$ va a afectar a la distribución de los residuos. De hecho, la transformación de $Y$ es un común sugerencia para la normalización de los residuos. Si una transformación más o menos normal depende de la distribución inicial de los residuos (no la distribución inicial de la $Y$) y la transformación utilizado. Una estrategia común es optimizar a través del parámetro $\lambda$ de los Box-Cox de la familia de distribuciones. Una palabra de precaución es apropiado aquí: no-lineales transformaciones de $Y$ puede hacer que su modelo de mal especificada como no-lineal de las transformaciones de $X$.


Ahora, lo que si ambos $X$ $Y$ son normales? De hecho, que incluso no garantiza que la distribución conjunta será normal bivariante (ver @cardenal excelente respuesta aquí: ¿Es posible tener un par de variables aleatorias Gaussianas para que la distribución conjunta no es Gaussiana).

Por supuesto, los hacen parecer bastante extraño posibilidades, así que ¿qué pasa si las distribuciones marginales parecen normales y la distribución conjunta también aparece bivariante normal, ¿esto significa que los residuos están normalmente distribuidos así? Como he intentado mostrar en mi respuesta he enlazado más arriba, si los residuos siguen una distribución normal, la normalidad de $Y$ depende de la distribución de $X$. Sin embargo no es cierto que la normalidad de los residuos es impulsado por la normalidad de los marginales. Considere este ejemplo sencillo (codificado con R):

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

enter image description here

En las parcelas, vemos que tanto marginales aparecen razonablemente normal, y la distribución conjunta se ve razonablemente normal bivariante. No obstante, la homogeneidad de los residuos se muestra en sus qq-plot; los dos colas dejar demasiado rápido en relación a una distribución normal (como de hecho se debe).

0voto

bohan Puntos 522

La respuesta corta es en el clásico de Regresión Simple Teoría, X es fija y se supone conocida (véase, por ejemplo, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), incluso sin ningún tipo de error en la medición de lo contrario sus mínimos cuadrados beta podría ser un sesgo e incluso incompatibles (ver https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu.edu/mrg217/public/measurement_handouts.pdf&cd=2&ved=0CCMQFjAB&usg=AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ&sig2=4lAnOQO23FiZbZ7323jOzA ).

Con respecto a hacer X una variable, en Wikipedia sobre el de Gauss-Markov teorema muy brevemente a los estados, a citar:

"En la mayoría de los tratamientos de la OPERACIÓN, los datos X se supone fijo. Este supuesto se considera inadecuado para una predominantemente no experimental de la ciencia como de la econometría.[2] en Cambio, los supuestos de Gauss–Markov teorema se declaró condicional en X"

que he leído como una de las principales desfavorable de la transformación de la ciencia al arte, o el arte o la ciencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X