4 votos

Cálculo de la significación estadística con tamaños de muestra desiguales y varianzas desiguales

Tengo dos muestras, una con $n_1 = 41,000$ y el otro con $n_2 = 881$; la muestra más grande tiene una desviación estándar de $13.74$, y el menor tiene una $SD=10.75$. Los medios son diferentes, y cuando ejecuto un Welch t-test, puedo obtener un $p < .001$. No estoy seguro si esa es la prueba adecuada. He comprobado que la inclinación de ambas muestras; se $29$ de la muestra grande y $9$ para la pequeña. Debo usar una U de Mann-Whitney, o tengo datos suficientes para asumir una distribución normal de las muestras? En fin necesito saber si los medios de las muestras son estadísticamente diferentes y ser capaz de decir una media es $X$ veces más grande que el otro.

8voto

AdamSane Puntos 1825

1) Las desviaciones estándar no son de tan mala manera diferente.

2) Desde $n_1=41000$, y las desviaciones estándar no son muy grandes, incluso si las varianzas eran muy diferentes, no importa.

Incluso se podría tratar de la media de la primera muestra como fijo (que casi es) y hacer una prueba de t de muestras.

3) La asimetría probable es que no importa mucho, a menos que sea muy fuerte en el más pequeño de la muestra. (se dice 'se inclina por encima de los 10' ... pero que realmente no dicen lo grandes que son. Si, dicen que la asimetría en el más pequeño de la muestra es menor que 20, la distribución de la media debería ser lo normal, y entre CLT para el numerador y el uso del teorema de Slutsky para el resto de la estadística, debe ser cercana a la normal)

--

La prueba de Welch debe estar bien.

Otra alternativa es considerar una prueba de permutación (las desviaciones estándar no son tan diferentes) o un arranque de prueba. Lo más probable es que dan resultados muy similares a lo que ya tiene.


Edit: (en respuesta a pregunta de seguimiento de los comentarios)

Bien, seguro. La manera de saber si la diferencia no es tan malo es ver cuánto impacto ignorando que tendría.

Las medidas pertinentes de impacto son el nivel de significación al $H_0$ es verdad y poder, cuando es falso, y más en general la forma de la función de potencia (que puede revelar problemas como prueba de sesgo). Es más fácil de calcular y comparar funciones de energía bajo diferentes supuestos a través de la simulación.

Por ejemplo, he utilizado la simulación en partes de mi respuesta a este interrogante. He llevado a cabo las simulaciones en R.

Así que usted puede asumir algunas de las tasas de población de las variaciones de cerca a la observada y ver lo mal que afecta a la importancia y el poder si tratarlos como iguales, y que tan cerca de la significación nominal se obtiene si se utiliza dicen que la aproximación de Welch en su lugar, así como cualquier impacto en el poder.

1voto

user35526 Puntos 11

Usted no quiere tratar de realizar un test de Levene prueba, esto comprueba la hipótesis de homogeneidad de la varianza. Si el valor de p es $< .25$, se asumen varianzas desiguales, y su apuesta más segura es ejecutar welch relacionados con las pruebas. Si el valor de p es $>.25$, ejecutar ANOVA, que para los dos grupos es sólo un t-test. La suposición de normalidad no es un gran problema cuando el tamaño de la muestra es tan grande.

Tenga en cuenta que el valor de p de .25 para el test de Levene prueba es un poco arbitrario, otros libros/los profesores pueden sugerir una menos conservador de valor tales como .15 o .10, etc...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X