20 votos

¿Qué agrupadas de la varianza de la "realidad"?

Soy un noob en las estadísticas, por lo que ustedes podrían por favor ayudarme a salir de aquí.

Mi pregunta es la siguiente: ¿Qué agrupado varianza realmente significa?

Cuando yo busque una fórmula para la varianza agrupada en la internet, me encuentro con una gran cantidad de literatura, mediante la siguiente fórmula (por ejemplo, aquí: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html):

\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation}

Pero, ¿qué es en realidad calcular? Porque cuando yo utilice esta fórmula para calcular la varianza agrupada, me da la respuesta equivocada.

Por ejemplo, considere estos "padres de la muestra":

\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation}

La varianza de este padre de la muestra es $S^2_p=10$, y su media es $\bar{x}_p=5$.

Ahora, supongamos que partimos de los padres de la muestra en dos sub-muestras:

  1. La primera sub-muestra se 2,2,2,2,2 con una media de $\bar{x}_1=2$ y la varianza $S^2_1=0$.
  2. La segunda sub-muestra se 8,8,8,8,8 con una media de $\bar{x}_2=8$ y la varianza $S^2_2=0$.

Ahora, claramente, utilizando la fórmula anterior para calcular el conjunto de los padres/variación de estos dos sub-muestras se producen cero, debido a que $S_1=0$$S_2=0$. Entonces, ¿qué hace esta fórmula en realidad calcular?

Por otro lado, después de algunos largos derivación, he encontrado la fórmula que genera la correcta agrupado/padre de la varianza es:

\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + n_1 d_1^2 + S_2^2 (n_2-1) + n_2 d_2^2} {n_1 + n_2 - 1} \end{equation}

En la fórmula anterior, $d_1=\bar{x_1}-\bar{x}_p$$d_2=\bar{x_2}-\bar{x}_p$.

He encontrado una fórmula similar con el mío, por ejemplo aquí: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html y también en la Wikipedia. Aunque tengo que admitir que ellos no tienen exactamente el mismo aspecto como el mío.

Así que, de nuevo, ¿qué agrupado varianza realmente significa? No significa que la varianza de la muestra de padres de las dos sub-muestras? O estoy totalmente equivocado aquí?

Gracias de antemano.


EDIT 1: Alguien dice que mis dos sub-muestras por encima son patológicos, ya que tienen cero de la varianza. Bueno, me podría dar un ejemplo diferente. Considerar esta muestra de padres:

\begin{equation} \label{eq:parentsample2} 1,2,3,4,5,46,47,48,49,50 \end{equation}

La varianza de este padre de la muestra es $S^2_p=564.7$, y su media es $\bar{x}_p=25.5$.

Ahora, supongamos que partimos de los padres de la muestra en dos sub-muestras:

  1. La primera sub-muestra se 1,2,3,4,5, con una media de $\bar{x}_1=3$ y la varianza $S^2_1=2.5$.
  2. La segunda sub-muestra se 46,47,48,49,50 con una media de $\bar{x}_2=48$ y la varianza $S^2_2=2.5$.

Ahora, si el uso de "literatura" fórmula para calcular el conjunto de la varianza, obtendrá 2.5, que es completamente equivocado, porque el padre/mancomunados de la varianza debe ser 564.7. En cambio, si el uso de "mi fórmula", usted va a obtener la respuesta correcta.

Por favor, comprenda, yo uso ejemplos extremos de aquí para mostrar a la gente que la fórmula de hecho mal. Si yo uso "normal" datos que no tienen una gran cantidad de variaciones (casos extremos), a continuación, los resultados de estas dos fórmulas será muy similar, y la gente podía despedir a la diferencia debida al error de redondeo, no porque la fórmula es incorrecto.

15voto

Jake Westfall Puntos 3777

Puesto simplemente, el conjunto de la varianza es un (imparcial) estimación de la varianza dentro de cada muestra, bajo el supuesto de/restricción de que los varianzas son iguales.

Esto se explica, motivado, y se analizaron en detalle en la entrada de Wikipedia para agrupadas de la varianza.

no estimar la varianza de una nueva "meta-muestra" que está formado por la concatenación de las dos muestras individuales, como usted supone. Como ya se ha descubierto, estimando que requiere una completamente diferente de la fórmula.

11voto

Dipstick Puntos 4869

Agrupado de la varianza se utiliza para combinar las variaciones de las diferentes muestras por tomar su promedio ponderado, para obtener el "general" de la varianza. El problema con su ejemplo de ello es que se trata de un caso patológico, ya que cada una de las sub-muestras se ha varianza igual a cero. Tal caso patológico tiene muy poco en común con los datos que nos encontramos, ya que siempre hay algo de la variabilidad y si no hay variabilidad, no nos preocupamos de tales variables, ya que no llevan ninguna información. Usted necesita darse cuenta de que esto es un método muy sencillo y hay más formas complicadas de la estimación de la varianza en estructuras jerárquicas de datos que no son propensos a este tipo de problemas.

Como acerca de su ejemplo en la edición, se muestra que es importante establecer claramente sus suposiciones antes de comenzar el análisis. Digamos que usted tiene $n$ puntos de datos en $k$ grupos, podríamos denominar como $x_{1,1},x_{2,1},\dots,x_{n-1,k},x_{n,k}$, donde el $i$-th índice en $x_{i,j}$ es sinónimo de casos y $j$-th índice representa el grupo de índices. Hay varios escenarios posibles, se puede asumir que todos los puntos provienen de la misma distribución (por simplicidad, supongamos que la distribución normal),

$$ x_{i,j} \sim \mathcal{N}(\mu \sigma^2) \etiqueta{1} $$

se puede asumir que cada una de las sub-muestras tiene su propia media

$$ x_{i,j} \sim \mathcal{N}(\mu_j, \sigma^2) \etiqueta{2} $$

o sea, su propia varianza

$$ x_{i,j} \sim \mathcal{N}(\mu \sigma^2_j) \etiqueta{3} $$

o, cada uno de ellos tiene sus propios, distintos parámetros

$$ x_{i,j} \sim \mathcal{N}(\mu_j, \sigma^2_j) \etiqueta{4} $$

Según su hipótesis, en particular, el método puede o puede no ser adecuada para el análisis de los datos.

En el primer caso, usted no estaría interesado en la estimación del grupo de variaciones, ya que se podría suponer que todos ellos son el mismo. Sin embargo, si usted agregada global de la varianza del grupo de varianzas, se obtendrá el mismo resultado mediante el uso de varianza agrupada, desde la definición de la varianza es

$$ \mathrm{Var}(X) = \frac{1}{n-1} \sum_i (x_i - \mu)^2 $$

y en agruparon estimador primero se multiplica por $n-1$, a continuación, añadir juntos, y finalmente dividir por $n_1 + n_2 - 1$.

En el segundo caso, los medios son diferentes, pero que tienen en común la varianza. Este ejemplo es el más cercano a su ejemplo en la edición. En este escenario, el conjunto de la varianza sería correctamente estimar la varianza, mientras que si se calcula la varianza sobre todo el conjunto de datos, usted podría obtener resultados incorrectos, ya que no eran de contabilidad para el hecho de que los grupos tienen diferentes medios.

En el tercer caso no tiene sentido estimar el "mundial" de la varianza debido a que usted asume que cada uno de los grupos tiene su propia variación. Usted todavía puede estar interesado en la obtención de la estimación para el conjunto de la población, pero en tal caso ambos (a) calcular las variaciones individuales de cada grupo, y (b) calcular el global de la varianza a partir de todo el conjunto de datos, puede dar resultados engañosos. Si usted está tratando con este tipo de datos, usted debe pensar en el uso más complicado modelo que representa la naturaleza jerárquica de los datos.

El cuarto caso es el más extremo y bastante similar a la anterior. En este escenario, si usted quiere estimar la media y la varianza, que se necesita un modelo diferente y diferente conjunto de supuestos. En tal caso, se podría suponer que los datos son de una estructura jerárquica, y además del grupo de medios y desviaciones, hay un alto nivel común de la varianza, por ejemplo suponiendo que el siguiente modelo

$$ \begin{align} x_{i,j} &\sim \mathcal{N}(\mu_j, \sigma^2_j) \\ \mu_j &\sim \mathcal{N}(\mu_0, \sigma^2_0) \\ \sigma^2_j &\sim \mathcal{IG}(\alpha, \beta) \end{align} \etiqueta{5} $$

donde cada una de las muestras tiene sus propios medios y desviaciones $\mu_j,\sigma^2_j$ que se dibuja a partir de distribuciones comunes. En tal caso, usted podría usar un modelo jerárquico que toma en cuenta tanto el nivel inferior y el nivel superior de la variabilidad. Para leer más acerca de este tipo de modelos, se puede comprobar el Bayesiano de Datos Análisis de los libro de Gelman et al. y sus ocho escuelas de ejemplo. Sin embargo, esto es mucho más complicado modelo de la simple agrupado de la varianza del estimador.

0voto

Nick Ergodos Puntos 21

El caso de uso de varianza agrupada es cuando se tienen dos muestras de las distribuciones que:

  • puede haber diferentes medios, pero
  • que esperas para tener una igualdad verdadera varianza.

Un ejemplo de esto es una situación en la que medir la longitud de Alice, la nariz de $n$ veces para una muestra y medir la longitud de Bob nariz del $m$ veces para la segunda. Estos tienden a producir un montón de diferentes medidas en la escala de milímetros, debido a un error de medición. Pero se espera que la varianza de los errores de medición a ser el mismo, no importa que la nariz de medir.

En este caso, tomando el conjunto de la varianza, le dará una mejor estimación de la varianza de los errores de medición que tomar la varianza de una muestra de solo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X