41 votos

X e Y no están correlacionados, pero X es un predictor significativo de Y en la regresión múltiple. ¿Qué significa esto?

X e Y no están correlacionados (-.01); sin embargo, cuando coloco X en una regresión múltiple que predice Y, junto con otras tres (A, B, C) variables (relacionadas), X y otras dos variables (A, B) son predictores significativos de Y. Obsérvese que las otras dos variables (A, B) están significativamente correlacionadas con Y fuera de la regresión.

¿Cómo debo interpretar estos resultados? X predice una varianza única en Y, pero como no están correlacionadas (Pearson), es de alguna manera difícil de interpretar.

Conozco casos opuestos (es decir, dos variables están correlacionadas pero la regresión no es significativa) y esos son relativamente más sencillos de entender desde una perspectiva teórica y estadística. Tenga en cuenta que algunos de los predictores están bastante correlacionados (por ejemplo, 0,70), pero no hasta el punto de que yo esperara una multicolinealidad sustancial. Sin embargo, puede que me equivoque.

NOTA: Esta pregunta la hice anteriormente y fue cerrada. La razón fue que esta pregunta es redundante con la pregunta " ¿Cómo es posible que una regresión sea significativa y que todos los predictores no lo sean? ". Tal vez no entienda la otra pregunta, pero creo que son cuestiones totalmente distintas, tanto desde el punto de vista matemático como teórico. Mi pregunta es totalmente independiente de si "una regresión es significativa". Además, varios predictores son significativos, mientras que la otra pregunta implica que las variables no sean significativas, así que no veo el solapamiento. Si estas preguntas son redundantes por razones que no entiendo, por favor inserte un comentario antes de cerrar esta pregunta. Además, esperaba poder enviar un mensaje al moderador que cerró la otra pregunta para evitar preguntas idénticas, pero no pude encontrar una opción para hacerlo.

45voto

tricasse Puntos 1610

La teoría causal ofrece otra explicación de cómo dos variables pueden ser incondicionalmente independientes pero condicionalmente dependientes. No soy un experto en teoría causal y agradezco cualquier crítica que corrija cualquier error de orientación a continuación.

Para ilustrarlo, utilizaré grafos acíclicos dirigidos (DAG). En estos grafos, las aristas ( $-$ ) entre variables representan relaciones causales directas. Las cabezas de flecha ( $\leftarrow$ o $\rightarrow$ ) indican la dirección de las relaciones causales. Así, $A \rightarrow B$ infiere que $A$ provoca directamente $B$ y $A \leftarrow B$ infiere que $A$ es causada directamente por $B$ . $A \rightarrow B \rightarrow C$ es una ruta causal que infiere que $A$ causa indirectamente $C$ a través de $B$ . Para simplificar, supongamos que todas las relaciones causales son lineales.

En primer lugar, consideremos un ejemplo sencillo de sesgo de confusión :

confounder

Aquí, una simple regresión bivariable sugerirá una dependencia entre $X$ y $Y$ . Sin embargo, no existe una relación causal directa entre $X$ y $Y$ . En cambio, ambos son causados directamente por $Z$ y en la regresión bivariable simple, observando $Z$ induce una dependencia entre $X$ y $Y$ , lo que provoca un sesgo por confusión. Sin embargo, una regresión multivariable condicionada por $Z$ eliminará el sesgo y sugerirá que no hay dependencia entre $X$ y $Y$ .

En segundo lugar, consideremos un ejemplo de sesgo del colisionador (también conocido como sesgo de Berkson o sesgo berksoniano, del que el sesgo de selección es un tipo especial):

collider

En este caso, una simple regresión bivariable sugerirá que no hay dependencia entre $X$ y $Y$ . Esto concuerda con el DAG, que no infiere ninguna relación causal directa entre $X$ y $Y$ . Sin embargo, una regresión multivariable condicionada por $Z$ inducirá una dependencia entre $X$ y $Y$ sugiriendo que puede existir una relación causal directa entre las dos variables, cuando en realidad no existe ninguna. La inclusión de $Z$ en la regresión multivariable resulta en un sesgo de colisión.

En tercer lugar, consideremos un ejemplo de cancelación incidental:

cancellation

Supongamos que $\alpha$ , $\beta$ y $\gamma$ son coeficientes de trayectoria y que $\beta = -\alpha\gamma$ . Una simple regresión bivariable sugerirá que no hay depenencia entre $X$ y $Y$ . Aunque $X$ es de hecho una causa directa de $Y$ el efecto de confusión de $Z$ en $X$ y $Y$ por cierto anula el efecto de $X$ en $Y$ . Una regresión multivariable condicionada por $Z$ eliminará el efecto de confusión de $Z$ en $X$ y $Y$ que permite estimar el efecto directo de $X$ en $Y$ , asumiendo que el DAG del modelo causal es correcto.

Para resumir:

Ejemplo de confusión: $X$ y $Y$ son dependientes en la regresión bivariable e independientes en la regresión multivariable que condiciona los factores de confusión $Z$ .

Ejemplo de colisionador: $X$ y $Y$ son independientes en la regresión bivariable y dependientes en la regresión multivariable que condiciona el colisionador $Z$ .

Ejemplo de cancelación inicdental: $X$ y $Y$ son independientes en la regresión bivariable y dependientes en la regresión multivariable que condiciona los factores de confusión $Z$ .

Discusión:

Los resultados de su análisis no son compatibles con el ejemplo de los factores de confusión, pero sí lo son con el ejemplo del colisionador y con el de la cancelación incidental. Por lo tanto, una posible explicación es que usted ha condicionado incorrectamente una variable colisionadora en su regresión multivariable y ha inducido una asociación entre $X$ y $Y$ aunque $X$ no es una causa de $Y$ y $Y$ no es una causa de $X$ . También es posible que haya condicionado correctamente un factor de confusión en su regresión multivariable que estaba anulando incidentalmente el verdadero efecto de $X$ en $Y$ en su regresión bivariable.

Considero que utilizar los conocimientos previos para construir modelos causales es útil a la hora de considerar qué variables incluir en los modelos estadísticos. Por ejemplo, si los estudios aleatorios previos de alta calidad concluyen que $X$ causa $Z$ y $Y$ causa $Z$ podría hacer una fuerte suposición de que $Z$ es un colisionador de $X$ y $Y$ y no condicionarla en un modelo estadístico. Sin embargo, si simplemente tuviera una intuición de que $X$ causa $Z$ y $Y$ causa $Z$ pero no hay pruebas científicas sólidas que respalden mi intuición, sólo pude hacer una suposición débil de que $Z$ es un colisionador de $X$ y $Y$ ya que la intuición humana tiene un historial de equivocaciones. En consecuencia, yo sería escéptico a la hora de inferir relaciones causales entre $X$ y $Y$ sin más investigaciones sobre sus relaciones causales con $Z$ . En lugar o además del conocimiento de fondo, también hay algoritmos diseñados para inferir modelos causales a partir de los datos utilizando una serie de pruebas de asociación (por ejemplo, el algoritmo PC y el algoritmo FCI, véase TETRAD para la implementación de Java, PCalg para la implementación de R). Estos algoritmos son muy interesantes, pero no recomendaría confiar en ellos sin una sólida comprensión del poder y las limitaciones del cálculo causal y los modelos causales en la teoría causal.

Conclusión:

La contemplación de los modelos causales no exime al investigador de abordar las consideraciones estadísticas que se han tratado aquí en otras respuestas. Sin embargo, considero que los modelos causales pueden, no obstante, proporcionar un marco útil a la hora de pensar en posibles explicaciones de la dependencia e independencia estadística observada en los modelos estadísticos, especialmente cuando se visualizan posibles factores de confusión y colisión.

Más información:

Gelman, Andrew. 2011. " Causalidad y aprendizaje estadístico ." Am. J. Sociology 117 (3) (noviembre): 955-966.

Greenland, S, J Pearl y J M Robins. 1999. " Diagramas causales para la investigación epidemiológica ." Epidemiology (Cambridge, Mass.) 10 (1) (enero): 37-48.

Groenlandia, Sander. 2003. " Cuantificación de los sesgos en los modelos causales: Confusión clásica frente a sesgo de estratificación del colisionador ." Epidemiología 14 (3) (1 de mayo): 300-306.

Pearl, Judea. 1998. Por qué no hay pruebas estadísticas de confusión, por qué muchos piensan que sí las hay y por qué casi tienen razón .

Pearl, Judea. 2009. Causalidad: Modelos, razonamiento e inferencia . 2ª ed. Cambridge University Press.

Spirtes, Peter, Clark Glymour y Richard Scheines. 2001. Causalidad, predicción y búsqueda Segunda edición. Un libro de Bradford.

Actualización: Judea Pearl analiza la teoría de la inferencia causal y la necesidad de incorporar la inferencia causal en los cursos de introducción a la estadística en el Edición de noviembre de 2012 de Amstat News . Su Conferencia del Premio Turing titulado "La mecanización de la inferencia causal: A 'mini' Turing Test and beyond" también es de interés.

27voto

Sean Hanley Puntos 2428

Creo que el enfoque de @jthetzel es el correcto (+1). Para interpretar estos resultados tendrás que pensar / tener alguna teoría de por qué las relaciones se manifiestan como lo hacen. Es decir, tendrás que pensar en el patrón de relaciones causales que subyace en tus datos. Tienes que reconocer que, como señala @jthetzel, tus resultados son consistentes con varios procesos diferentes de generación de datos. No creo que ninguna cantidad de pruebas estadísticas adicionales en el mismo conjunto de datos le permitirá distinguir entre esas posibilidades (aunque ciertamente podrían hacerse más experimentos). Por lo tanto, es vital pensar en lo que se sabe sobre el tema.

Quiero señalar otra posible situación subyacente que podría generar resultados como los suyos: Supresión . Esto es más difícil de ilustrar utilizando los diagramas de flechas, pero si puedo aumentarlos ligeramente, podríamos pensarlo así:

enter image description here

Lo importante de esta situación es que el $\text{Other Variable}$ se compone de dos partes, una no relacionada ( $\text{U}$ ), y una parte relacionada ( $\text{R}$ ) parte. El $\text{Suppressor}$ no estará correlacionada con $\text{Y}$ pero puede ser muy significativo en un modelo de regresión múltiple. Además, el $\text{Other Variable}$ puede o no estar "significativamente" correlacionado con el $\text{Suppressor}$ o $\text{Y}$ por su cuenta. Además, su variable X podría estar desempeñando el papel de $\text{Suppressor}$ o el $\text{Other Variable}$ en esta situación (y por lo tanto, de nuevo, tiene que pensar en cuál podría ser el patrón subyacente basado en su conocimiento de la zona).

No sé si sabes leer código R, pero aquí tienes un ejemplo que he elaborado. (Este ejemplo en particular encaja mejor con X jugando el papel de $\text{Suppressor}$ pero ambos no están "significativamente" correlacionados con $\text{Y}$ ; debería ser posible obtener la correlación entre el $\text{Other Variable}$ y $\text{Y}$ cerca de 0 y que coincida con los otros descriptivos con los ajustes justos).

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Mi punto aquí no es que esta situación sea la que subyace a sus datos. No sé si es más o menos probable que las opciones que sugiere @jthetzel. Sólo lo ofrezco como un elemento más de reflexión. Para interpretar tus resultados actuales, tienes que pensar en estas posibilidades y decidir cuál tiene más sentido. Para confirmar tu elección, será necesario experimentar cuidadosamente.

9voto

Uri Puntos 111

Sólo una visualización de que es posible.

En la imagen (a) Se muestra la situación regresiva "normal" o "intuitiva". Esta imagen es la misma que, por ejemplo, encontramos (y explicamos) aquí o aquí .

Las variables se dibujan como vectores. Los ángulos entre ellos (sus cosenos) son las correlaciones de las variables. $Y'$ designa aquí la variable de valores previstos (más a menudo anotada como $\hat Y$ ). Coordenada de inclinación de su arista sobre un vector predictor (proyección inclinada, paralela al otro predictor) - notch $b$ - es proporcional al coeficiente de regresión de ese predictor.

En la imagen (a), las tres variables se correlacionan positivamente, y ambas $b_1$ y $b_2$ son también coeficientes de regresión positivos. $X_1$ y $X_2$ "compiten" en la regresión, siendo los coeficientes de regresión su puntuación en ese concurso.

enter image description here

En la imagen (b) se muestra la situación en la que el predictor $X_1$ se correlaciona con $Y$ positivamente, aún así su coeficiente de regresión es cero: el punto final de la predicción $Y'$ se proyecta en el origen del vector $X_1$ . Obsérvese que este hecho coincide con que $Y'$ y $X_2$ se superponen, lo que significa que los valores predichos están absolutamente correlacionados con ese otro predictor.

En la imagen (c) es la situación en la que $X_1$ no se correlaciona con $Y$ (sus vectores son ortogonales), pero el coeficiente de regresión del predictor no es cero: es negativo (la proyección se queda atrás $X_1$ vectorial).

Datos y análisis correspondientes aproximadamente a la imagen (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

enter image description here

Datos y análisis correspondientes aproximadamente a la imagen (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

enter image description here

Observe que $X_1$ en el último ejemplo sirvió como supresor . Su correlación de orden cero con $Y$ es prácticamente cero, pero su correlación parcial es mucho mayor en magnitud, $-.224$ . Se reforzó en cierta medida la fuerza de predicción de $X_2$ (de $.419$ una posible beta en regresión simple con ella, a beta $.538$ en la regresión múltiple).

7voto

Tyson Phalp Puntos 156

Estoy de acuerdo con la respuesta anterior pero espero poder contribuir dando más detalles.

El coeficiente de correlación sólo mide la dependencia lineal entre $X$ y $Y$ y no está controlando el hecho de que otras variables puedan estar involucradas en la relación también. De hecho, el coeficiente de correlación es igual al parámetro de la pendiente de la siguiente regresión escalada por $x$ y $y$ desviaciones estándar :

$Y = a + \beta x + u$

donde $\hat \rho_{yx} = \hat \beta \hat\sigma_x/\hat\sigma_y$

Pero ¿qué pasa si $Y$ es generada también por otras variables, por lo que el modelo real es algo así como

$Y = a + \beta x + \sum_j\alpha_jz_j + u$

Bajo este modelo real, resulta obvio que la estimación de la primera (sólo con x) arrojará un sesgo $\beta$ estimación ya que ese modelo está omitiendo la $z_j$ (esto implica que $\rho$ también está sesgada). Así que sus resultados están en línea con el hecho de que las variables omitidas son relevantes. Para resolver este problema, la teoría del análisis de correlación proporciona el coeficiente de correlación parcial (estoy seguro de que encontrará referencias al respecto), que básicamente calcula $\rho_{xy|z}$ de la última ecuación de estimación que controla por $z_j$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X