30 votos

Elegir entre los $z$-prueba y $t$-prueba

Antecedentes: estoy dando una presentación a los compañeros en el trabajo en la prueba de hipótesis, y de entender la mayoría de lo bien, pero hay un aspecto que me voy a atar a mi mismo, en nudos tratando de entender así como explicar a los demás.

Esto es lo que creo que sé (por favor, corrija si mal!)

  • Estadísticas de la que sería normal si la varianza era conocido, seguir una $t$-distribución, si la varianza es desconocida
  • CLT: La distribución de muestreo de la media muestral es aproximadamente normal suficientemente grande $n$ ( $30$ , podría ser de hasta el $300$ altamente distribuciones sesgadas)
  • El $t$-distribución puede ser considerado Normal para los grados de libertad $> 30$

Utilice el $z$-prueba si:

  1. La población normal y varianza conocida (para cualquier tamaño de la muestra)
  2. La población normal, con varianza desconocida y $n>30$ (debido a la CLT)
  3. Población binomial, $np>10$, $nq>10$

Utilice el $t$-prueba si:

  1. La población normal, con varianza desconocida y $n<30$
  2. Ningún conocimiento acerca de la población o la varianza y la $n<30$, pero los datos de muestra se ve normal / pasa las pruebas etc por lo que la población puede suponer normal

Así que yo me quedo con:

  • Para las muestras de $>30$ $<\approx 300$ (?), ningún conocimiento acerca de la población y de la varianza conocido / desconocido.

Así que mis preguntas son:

  1. En ¿qué tamaño de muestra se puede asumir (donde ningún conocimiento acerca de la distribución de la población o la varianza) que la distribución de muestreo de la media normal (es decir, CLT ha pateado en) cuando la distribución de muestreo se ve que no es normal? Sé que algunas distribuciones necesidad de $n>300$, pero algunos de los recursos parecen decir el uso de la $z$-prueba siempre que $n>30$...

  2. Para los casos que no estoy seguro acerca de, supongo yo que mirar los datos para la normalidad. Ahora, si los datos de la muestra no parece normal ¿puedo usar el $z$-prueba (ya que asume la población normal, y desde $n>30$)?

  3. ¿Qué acerca de los datos de la muestra de casos no estoy seguro acerca de la no parecen normales? Hay circunstancias donde usted todavía uso un $t$-prueba o $z$-prueba o siempre la ves para transformar / utilizar pruebas no paramétricas? Sé que, debido a la CLT, en algún valor de $n$ la distribución de muestreo de la media se aproxima a la normalidad, pero los datos de la muestra no me dicen lo que el valor de $n$; los datos de la muestra podría no ser normal, mientras que la media muestral sigue una normal / $t$. Hay casos en los que sería la transformación de / utilizando una prueba no paramétrica, cuando en realidad la distribución de muestreo de la media era normal / $t$ pero no podía decirle?

34voto

Sean Hanley Puntos 2428

@AdamO es correcto, simplemente utilice siempre el $t$-examen si usted no conoce la desviación estándar de población a-priori. Usted no tiene que preocuparse acerca de cuándo cambiar a la $z$-examen, debido a que el $t$-distribución de los 'interruptores' para usted. Más específicamente, el $t$-distribución converge a la normal, por lo que es la distribución correcta a utilizar en cada una de las $N$.

También hay una confusión aquí sobre el significado de la línea tradicional en $N=30$. Hay dos tipos de convergencia que la gente hable acerca de:

  1. La primera es que la distribución de muestreo de la media de una distribución normal (dentro del grupo), los datos crudos converge a una distribución normal, como $N\rightarrow\infty$ a pesar del hecho de que la SD se estima a partir de los datos. (El $t$-la distribución se hace cargo de esto para usted, como se señaló anteriormente.)
  2. La segunda es que la distribución de muestreo de la media de la no-normalmente distribuidos (en grupo) de los datos crudos converge a una distribución normal (más lentamente que los de arriba) como $N\rightarrow\infty$. Conteo de personas en el Teorema del Límite Central para cuidar de esto para ellos. Sin embargo, no hay garantía de que va a converger dentro de razonable tamaño de la muestra--ciertamente no hay razón para creer $30$ (o $300$) es el número mágico. Dependiendo de la magnitud y la naturaleza de la no-normalidad, se puede tomar mucho tiempo (cf. @Macro de la respuesta aquí: Regresión cuando la OLS residuos no están normalmente distribuidos). Si usted cree que su (dentro del grupo) datos en bruto no son muy normales, puede ser mejor usar un tipo diferente de prueba, tales como el test de Mann-Whitney $U$-prueba. Tenga en cuenta que con la no-normalidad de los datos, el test de Mann-Whitney $U$-prueba es probable que sea más poderoso que el $t$-prueba, y puede ser por lo que incluso si la CLT ha pateado. (También es digno de señalar que las pruebas de normalidad es probable que te llevará por mal camino, véase: Es la normalidad de las pruebas "prácticamente inútil"?)

En cualquier caso, para responder a sus preguntas de forma más explícita, si usted cree que su (dentro del grupo) datos en bruto no están distribuidos normalmente, el uso de la u de Mann-Whitney $U$-prueba; si usted cree que los datos están distribuidos normalmente, pero usted no sabe la SD a-priori, el uso de la $t$-prueba; y si usted cree que sus datos están distribuidos normalmente y usted sabe que la SD a-priori, el uso de la $z$-prueba.

Puede ayudarle a leer @GregSnow la reciente respuesta aquí: Interpretación de p-valor en la comparación de proporciones entre dos grupos pequeños de R con respecto a estas cuestiones.

14voto

alexs77 Puntos 36

No hay nada que discutir sobre el asunto. El uso de un $t$-prueba siempre para un test no paramétrico de la prueba de diferencias de medias, a menos que el más sofisticado de remuestreo herramienta-por ejemplo, la permutación o bootstrap-se llama (útil en muy pequeñas muestras con grandes desviaciones de la normalidad).

Si los grados de libertad que en realidad importa, entonces el $t$-ensayo deberá proporcionar consistente estimación de valores críticos y los errores estándar de la distribución de la prueba estadística de la hipótesis nula. De lo contrario, el $t$-prueba es aproximadamente el mismo que el $z$-prueba.

La aproximación normal a las pruebas de modelo paramétrico parámetros, como la población proporción de la prueba, es una especie de difuntos. Cuando los datos son lo suficientemente pequeños que realmente hay una distinción entre los valores generados a partir de $t$ o $z$ distribuciones, usted realmente debe utilizar una prueba exacta de proporciones basadas en la ampliación de la distribución binomial de la estadística de prueba. Remuestreo de pruebas de trabajo de esta manera. Decisiones arbitrarias de la regla-de-pulgar supuestos sobre los tamaños de muestra y la prevalencia de casos/controles en la estimación de parámetros de Bernoulli es confuso y muy propenso a errores.

El concepto de una $z$-prueba ("conocido" de la varianza) es confuso porque nunca se "sabe" el desacuerdo, ni de gastar mucho para estimar. Cuando el costo de los asuntos, sólo el $t$-prueba refleja su impacto sobre los grados de libertad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X