7 votos

¿Por qué mi regresión no es significativa cuando combino datos que produjeron dos regresiones significativas?

Tengo un conjunto de datos combinado de dos muestras de diferentes países (n=240 y n=1.010), y cuando ejecuto una regresión lineal entre las mismas tres variables en cada conjunto de datos, ambos conjuntos de datos producen un resultado significativo, con coeficientes casi idénticos. Sin embargo, cuando fusiono los conjuntos de datos y ejecuto la misma regresión en el conjunto de datos combinado, ya no es significativo. ¿Puede alguien explicar esto?

En caso de que importe, la regresión tiene la forma lm(a~b*c) .

5 votos

Si las dos regresiones tienen pendientes significativas pero diferentes (muy diferentes y posiblemente de distinto signo) no hay razón para pensar que la combinación de los datos en una sola regresión dará una pendiente significativa.

0 votos

Como he dicho, los coeficientes son casi iguales. Sin embargo, gracias por tu comentario, y tengo curiosidad por saber si tienes algún consejo sobre cómo proceder para intentar resolver este problema.

0 votos

Lo siento, me perdí la parte en la que decías que tenías coeficientes casi idénticos. Pero, ¿qué quiere decir exactamente con casi idénticos? ¿Cuáles eran los niveles significativos de cada uno?

25voto

sundar nataraj Puntos 132

Sin ver sus datos, es difícil responder de forma definitiva. Una posibilidad es que sus conjuntos de datos abarquen diferentes rangos de la variable independiente. Es bien sabido que la combinación de datos entre diferentes grupos puede a veces invertir las correlaciones observadas en cada grupo por separado. Este efecto se conoce como La paradoja de Simpson .

0 votos

Vaya, es muy interesante, ¡nunca había oído hablar de la paradoja de Simpson! Me pregunto si podría darme algún consejo sobre cómo proceder para intentar responder a mi pregunta de investigación, que es ver si la variable c modera el efecto de la variable b sobre la variable a. Estoy desconcertado sobre cómo debería abordar algo así, porque parece que si digo que c modera b, estoy en lo cierto en cada país individualmente, ¡pero incorrecto en general! Supongo que esa es la paradoja, pero sigo perplejo.

0 votos

Suponiendo que se trate de la paradoja de Simpson (¡algo que no hemos establecido del todo!), creo que hay dos preguntas clave. En primer lugar, ¿corresponden sus dos conjuntos de datos a diferentes niveles de a significativo factor de agrupación. En segundo lugar, si es así, ¿representa la variación introducida por este factor una variación molesta que se quiere controlar (en lugar de una variación interesante que se quiere estudiar)? Si la respuesta a ambas preguntas es afirmativa, entonces podría considerar la estimación de un efecto fijo de grupo (continuación)

0 votos

(continuación) que podría permitir al modelo trazar líneas paralelas (con la pendiente de interés) a través de cada uno de sus dos grupos, al tiempo que se trata la variación entre grupos dando a las dos líneas diferentes intercepciones. Pero insisto en que éstas son decisiones que sólo pueden tomarse con una comprensión conceptual/teórica completa del problema al que se supone que debe responder su análisis.

17voto

Alan Puntos 7273

Si sus datos se parecen a esto, la razón puede ser más obvia. Sus dos líneas de regresión originales serían casi paralelas y parecen razonablemente plausibles, pero combinadas producen un resultado diferente que probablemente no sea muy útil.

regrssion

Los datos para este gráfico provienen de la utilización del código R

exdf <- data.frame(
  x=c(-64:-59, -52:-47),
  y=c(-8.29, -8.36, -9.05, -9.30, -9.20, -9.69, 
      -7.90, -8.34, -8.49, -8.85, -9.38, -9.65),
  col=c(rep("blue",6), rep("red",6)) )
fitblue  <- lm(y ~ x, data=exdf[exdf$col=="blue",])
fitred   <- lm(y ~ x, data=exdf[exdf$col=="red" ,])
fitcombo <- lm(y ~ x, data=exdf)
plot(y ~ x, data=exdf, col=col)
abline(fitblue , col="blue")
abline(fitred  , col="red" )
abline(fitcombo, col="black")

que informa

> summary(fitblue)

Call:
lm(formula = y ~ x, data = exdf[exdf$col == "blue", ])

Residuals:
       1        2        3        4        5        6 
-0.00619  0.20295 -0.20790 -0.17876  0.20038 -0.01048 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -26.14895    2.91063  -8.984  0.00085 ***
x            -0.27914    0.04731  -5.900  0.00413 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1979 on 4 degrees of freedom
Multiple R-squared:  0.8969,    Adjusted R-squared:  0.8712 
F-statistic: 34.81 on 1 and 4 DF,  p-value: 0.004128

> summary(fitred)

Call:
lm(formula = y ~ x, data = exdf[exdf$col == "red", ])

Residuals:
        7         8         9        10        11        12 
-0.005238 -0.095810  0.103619  0.093048 -0.087524 -0.008095 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -26.06505    1.12832  -23.10 2.08e-05 ***
x            -0.34943    0.02278  -15.34 0.000105 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.0953 on 4 degrees of freedom
Multiple R-squared:  0.9833,    Adjusted R-squared:  0.9791 
F-statistic: 235.3 on 1 and 4 DF,  p-value: 0.0001054

> summary(fitcombo)

Call:
lm(formula = y ~ x, data = exdf)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.8399 -0.4548 -0.0750  0.4774  0.9999 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -9.269561   1.594455  -5.814  0.00017 ***
x           -0.007109   0.028549  -0.249  0.80839    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.617 on 10 degrees of freedom
Multiple R-squared:  0.006163,  Adjusted R-squared:  -0.09322 
F-statistic: 0.06201 on 1 and 10 DF,  p-value: 0.8084

no está muy lejos de sus estadísticas y con más trabajo podría acercarse más

3 votos

+1 por la buena simulación de la paradoja de Simpson. Otro ejemplo en stats.stackexchange.com/questions/185047/ .

4voto

Zolani13 Puntos 128

También es posible que los puntos de datos de cada conjunto de datos tengan distribuciones completamente diferentes debido a los valores atípicos y/o a las relaciones no lineales entre $x$ y $y$ y, sin embargo, comparten coeficientes de regresión lineal, errores estándar y estadísticamente significativos casi idénticos $p$ -valores. La combinación de los dos conjuntos de datos podría crear un conjunto de datos que ya no tiene una fuerte relación lineal. Véase Cuarteto de Anscombe . Se puede encontrar una representación visual de numerosos conjuntos de datos que comparten las mismas estadísticas de resumen pero con gráficos de dispersión radicalmente diferentes aquí . Mi recomendación sería examinar detenidamente los gráficos de dispersión de ambos conjuntos de datos.

1 votos

Además de examinar los gráficos de dispersión, intentaría repetir la regresión utilizando el país como variable adicional (a~b c país). De este modo, podrá ver si algunos coeficientes cambian significativamente entre países.

0 votos

@Pere Cuando incluyo el país en el modelo (a~b c país), el resultado producido es que el b La variable de interacción c se relaciona significativamente con a (b=-0,35, p<0,001). ¿Puedo interpretar esto como una prueba de que b Me parece raro que b*c sólo prediga a cuando introduzco la variable país en la ecuación. Gracias.

0 votos

@BenjiKaveladze No estoy seguro de entender tu comentario. Te sugiero que publiques el resumen completo, quizás en otra pregunta. Sin embargo, las interacciones bc significa que se puede tener en cuenta bc para obtener mejores predicciones de a, lo que equivale a decir que para diferentes valores de c se obtiene una relación diferente entre a y b.

1voto

Emily Chen Puntos 41

Para más información sobre la paradoja de Simpson, véase Pearl, J., y Mackenzie, D. (2018). ¡Paradojas en abundancia! El libro del porqué: La nueva ciencia de la causa y el efecto (Kindle ed., pp. 2843-3283). Nueva York: Basic Books. Véase también La causalidad de Pearl.

En su libro, Pearl da un ejemplo muy similar al tuyo. El problema es que hay una variable de confusión que afecta tanto a la(s) variable(s) independiente(s) como a la variable dependiente. En el ejemplo de Pearl, la pregunta es: ¿Por qué un medicamento contra el infarto es malo para las mujeres y malo para los hombres, pero bueno para las personas? (cuando se combinan las dos muestras de género). La respuesta es que el género es una variable de confusión que influye en quién toma el fármaco (las mujeres son mucho más propensas), y también en la prevalencia del infarto (los hombres son mucho más propensos). La solución a las variables de confusión es condicionarlas. Esto puede hacerse de dos maneras: (1) Utilizando el análisis de regresión, hacer que el género sea una variable; (2) Analizar el efecto medio del fármaco para los dos géneros por separado; luego calcular la media ponderada (ponderada por el porcentaje en la población de los géneros, aquí 1/2) de los efectos.

Pearl diría que hay que tener un modelo del fenómeno que se estudia, es decir, una teoría exhaustiva que tenga en cuenta todas las variables que intervienen en la respuesta. Desarrollar ese modelo y esa teoría puede llevar meses de lectura para entender el trabajo de otros en el campo. Sin embargo, recuerde que una sola variable omitida puede sesgar los resultados y hacer que carezcan de sentido o sean sencillamente erróneos.

Pearl también escribiría que no se puede extraer la causalidad de los datos; para eso se necesita un modelo teórico. Sin embargo, una vez que se tiene una teoría y un modelo, se pueden utilizar los datos para apoyarlos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X