Soy un noob en las estadísticas, por lo que ustedes podrían por favor ayudarme a salir de aquí.
Mi pregunta es la siguiente: ¿Qué agrupado varianza realmente significa?
Cuando yo busque una fórmula para la varianza agrupada en la internet, me encuentro con una gran cantidad de literatura, mediante la siguiente fórmula (por ejemplo, aquí: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html):
\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation}
Pero, ¿qué es en realidad calcular? Porque cuando yo utilice esta fórmula para calcular la varianza agrupada, me da la respuesta equivocada.
Por ejemplo, considere estos "padres de la muestra":
\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation}
La varianza de este padre de la muestra es $S^2_p=10$, y su media es $\bar{x}_p=5$.
Ahora, supongamos que partimos de los padres de la muestra en dos sub-muestras:
- La primera sub-muestra se 2,2,2,2,2 con una media de $\bar{x}_1=2$ y la varianza $S^2_1=0$.
- La segunda sub-muestra se 8,8,8,8,8 con una media de $\bar{x}_2=8$ y la varianza $S^2_2=0$.
Ahora, claramente, utilizando la fórmula anterior para calcular el conjunto de los padres/variación de estos dos sub-muestras se producen cero, debido a que $S_1=0$$S_2=0$. Entonces, ¿qué hace esta fórmula en realidad calcular?
Por otro lado, después de algunos largos derivación, he encontrado la fórmula que genera la correcta agrupado/padre de la varianza es:
\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + n_1 d_1^2 + S_2^2 (n_2-1) + n_2 d_2^2} {n_1 + n_2 - 1} \end{equation}
En la fórmula anterior, $d_1=\bar{x_1}-\bar{x}_p$$d_2=\bar{x_2}-\bar{x}_p$.
He encontrado una fórmula similar con el mío, por ejemplo aquí: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html y también en la Wikipedia. Aunque tengo que admitir que ellos no tienen exactamente el mismo aspecto como el mío.
Así que, de nuevo, ¿qué agrupado varianza realmente significa? No significa que la varianza de la muestra de padres de las dos sub-muestras? O estoy totalmente equivocado aquí?
Gracias de antemano.
EDIT 1: Alguien dice que mis dos sub-muestras por encima son patológicos, ya que tienen cero de la varianza. Bueno, me podría dar un ejemplo diferente. Considerar esta muestra de padres:
\begin{equation} \label{eq:parentsample2} 1,2,3,4,5,46,47,48,49,50 \end{equation}
La varianza de este padre de la muestra es $S^2_p=564.7$, y su media es $\bar{x}_p=25.5$.
Ahora, supongamos que partimos de los padres de la muestra en dos sub-muestras:
- La primera sub-muestra se 1,2,3,4,5, con una media de $\bar{x}_1=3$ y la varianza $S^2_1=2.5$.
- La segunda sub-muestra se 46,47,48,49,50 con una media de $\bar{x}_2=48$ y la varianza $S^2_2=2.5$.
Ahora, si el uso de "literatura" fórmula para calcular el conjunto de la varianza, obtendrá 2.5, que es completamente equivocado, porque el padre/mancomunados de la varianza debe ser 564.7. En cambio, si el uso de "mi fórmula", usted va a obtener la respuesta correcta.
Por favor, comprenda, yo uso ejemplos extremos de aquí para mostrar a la gente que la fórmula de hecho mal. Si yo uso "normal" datos que no tienen una gran cantidad de variaciones (casos extremos), a continuación, los resultados de estas dos fórmulas será muy similar, y la gente podía despedir a la diferencia debida al error de redondeo, no porque la fórmula es incorrecto.