Usted necesitará 1. a través de 4. para el cálculo de la correlación general para los dos grupos combinados. La ecuación de esta es: $$r_{xy} = \frac{n_1 sd_{x_1} sd_{y_1} r_{xy_1} + n_1 \delta_{x_1} \delta_{y_1} + n_2 sd_{x_2} sd_{y_2} r_{xy_2} + n_2 \delta_{x_2} \delta_{y_2}}{\sqrt{n_1 (sd_{x_1}^2 + \delta_{x_1}^2) + n_2 (sd_{x_2}^2 + \delta_{x_2}^2)} \sqrt{n_1 (sd_{y_1}^2 + \delta_{y_1}^2) + n_2 (sd_{y_2}^2 + \delta_{y_2}^2)}},$$ where $$\delta_{x_1} = m_{x_1} - m_x$$ and $$\delta_{x_2} = m_{x_2} - m_x$$ are the deviations of the group means for variable $x$ from the overall mean for that variable, which we can compute with $$m_x = \frac{n_1 m_{x_1} + n_2 m_{x_2}}{n_1 + n_2}$$ and $$\delta_{y_1} = m_{y_1} - m_y$$ and $$\delta_{y_2} = m_{y_2} - m_y$$ are the deviations of the group means for variable $y$ from the overall mean for that variable, which we can compute with $$m_y = \frac{n_1 m_{y_1} + n_2 m_{y_2}}{n_1 + n_2}.$$ Note that the equation above assumes that we have computed the variances (and hence, the standard deviations) with $n_1$ and $n_2$ in the denominator (instead of $n_1 - 1$ and $n_2 - 1$).
Así que, vamos a probar esto a cabo. He aquí un ejemplo (código R):
library(MASS)
set.seed(12315)
### data for group 1
n1 <- 10
N1 <- mvrnorm(n1, mu=c(0,0), Sigma=matrix(c(1,.5,.5,1), nrow=2))
r1 <- cor(N1)[1,2]
### data for group 2
n2 <- 20
N2 <- mvrnorm(n2, mu=c(2,2), Sigma=matrix(c(1,.3,.3,1), nrow=2))
r2 <- cor(N2)[1,2]
### correlations within the groups
r1
r2
Esto produce:
> r1
[1] 0.5853821
> r2
[1] 0.2983734
Por lo tanto, estas son las correlaciones dentro de los dos grupos.
### group means for each variable
mx1 <- mean(N1[,1])
my1 <- mean(N1[,2])
mx2 <- mean(N2[,1])
my2 <- mean(N2[,2])
### group SDs for each variable
sdx1 <- sd(N1[,1]) * sqrt((n1-1) / n1)
sdy1 <- sd(N1[,2]) * sqrt((n1-1) / n1)
sdx2 <- sd(N2[,1]) * sqrt((n2-1) / n2)
sdy2 <- sd(N2[,2]) * sqrt((n2-1) / n2)
### overall means for variables x and y
mx <- (n1*mx1 + n2*mx2) / (n1 + n2)
my <- (n1*my1 + n2*my2) / (n1 + n2)
### deviations of group means from overall means
dx1 <- mx1 - mx
dy1 <- my1 - my
dx2 <- mx2 - mx
dy2 <- my2 - my
### overall correlation for combined data
cor(rbind(N1,N2))[1,2]
Esto produce:
[1] 0.7370049
Así que, esta es la correlación general de los datos cuando se combinan los dos grupos. Y ahora vamos a probar la ecuación anterior:
(n1*sdx1*sdy1*r1 + n1*dx1*dy1 + n2*sdx2*sdy2*r2 + n2*dx2*dy2) / (sqrt(n1*(sdx1^2+dx1^2) + n2*(sdx2^2+dx2^2)) * sqrt(n1*(sdy1^2+dy1^2) + n2*(sdy2^2+dy2^2)))
Esto produce:
[1] 0.7370049
Exactamente el mismo.
Si usted necesita una referencia para la ecuación:
Dunlap, J. W. (1937). Combinative propiedades de los coeficientes de correlación. Journal of Experimental de Educación, 5(3), 286-288.
Es la ecuación (13) en el artículo. La generalización a más de dos grupos se da también (ecuación 14).