14 votos

Prueba estadística para un valor significativamente más alejado de la media de la población: ¿es una prueba Z o una prueba T?

Cuán significativo es un valor que se compara con una lista de valores? En la mayoría de los casos estadístico de prueba se basa en la comparación de un conjunto de muestras de una población. En mi caso la muestra se hizo por un valor y la comparamos con la población.

Soy un diletante en las pruebas de hipótesis estadísticas confrontados con tal vez el más básico problema. No es solo una prueba, sino cientos de ellos. Tengo un espacio de parámetros, y se debe hacer una significación de la prueba para cada punto. Tanto en valor y el fondo de la lista (de la población) son generados para cada combinación de parámetros. Luego hago el pedido esta por valor de p y encontrar interesantes combinaciones de parámetros. De hecho, el hallazgo de combinaciones de parámetros donde este p-val es alta (nonsignificance) también es importante.

Así que vamos a tener una sola prueba: tengo un valor calculado generados a partir de un conjunto seleccionado y un fondo conjunto de valores calculados mediante la elección al azar del conjunto de entrenamiento. El valor calculado es de 0,35 y el fondo es (probablemente?) normalmente distribuida con una media de 0,25 y una muy estrecha sexual (e-7). Yo en realidad no tienen conocimiento sobre la distribución, debido a que las muestras se calculan a partir de algo más, que no son números al azar muestras de algunos distribución, de forma que de fondo es la palabra correcta para ella.

La hipótesis nula sería que "la media de la muestra de prueba es igual a mi valor calculado, de 0.35". Cuándo debo considerar que se trata de una prueba Z o un T-test? Quiero el valor para ser significativamente mayor que la media de la población es, por lo tanto se trata de una sola cola de la prueba.

Estoy un poco confundido en cuanto a qué considerar como un ejemplo: yo tengo una muestra de uno (la observación) y el fondo de la lista de la población O de mi ejemplo es el fondo de la lista y estoy comparando eso con el todo (no muestreados) de la población que de acuerdo a la hipótesis nula debe tener la misma media. Una vez que esto está decidido, la prueba va a direcciones diferentes, supongo.

Si es un T-test, ¿cómo puedo calcular el p-valor? Me gustaría calcular a mí mismo en lugar de usar un R/Python/función de Excel (ya sé cómo hacerlo) por lo tanto, debo establecer la fórmula correcta primero.

Para empezar, tengo la sospecha de un T-test es un poco demasiado general, ya que en mi caso la prueba de T estaría vinculado con el tamaño de la muestra y tendría el formulario: $$T=Z/s,$$ where $$Z=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}$$ and s is $$s=\hat{\sigma}/\sigma$$, la muestra std frente a la población de las ets. Así que tengo dos casos: a mi el tamaño de la muestra es el tamaño de la población, lo que yo "creo" significaría que estoy tratando con la prueba Z, o las estadísticas de la población (n y ets) son desconocidos, pero la distribución puede ser en alguna manera aproximada y estoy realmente tratando con un T-test. En cualquier caso mis siguientes preguntas:

  1. ¿Cómo puedo calcular un valor de p? (es decir, no utilizando un R/Python/función de Excel o p-valor tabla look-up, pero en realidad se calcula con base en una fórmula, porque quiero saber lo que estoy haciendo)
  2. ¿Cómo puedo decidir un umbral de significancia basado en mi tamaño de la muestra? (una fórmula sería bueno)

12voto

Chris Cudmore Puntos 634

Usted plantear una pregunta interesante. Primero lo primero, si usted tiene una observación de 0.35, una media de 0,25 y una desviación estándar de 1/10^7 (que es como yo interpreto sus e^-7 bits) usted realmente no necesita ir en cualquier prueba de hipótesis de ejercicio. Su 0.35 observación es muy diferente de la media de 0,25 dado que va a ser de varios miles desviación estándar de distancia de la media y probablemente será de varios millones de los errores estándar de la media.

La diferencia entre el Z-test y la prueba de t se refiere principalmente del tamaño de la muestra. Con muestras más pequeñas de 120, usted debe utilizar la prueba de t para calcular los valores de p. Cuando los tamaños de muestra son más que eso, no hace mucha diferencia si en todo lo que uno utiliza. Es divertido para calcular ambas cosas a la vez, independientemente del tamaño de la muestra y observar cómo la poca diferencia que hay entre las dos pruebas.

En cuanto a calcular cosas por ti mismo, se puede calcular la t stat por la división de la diferencia entre la observación y la media y se divide por el error estándar. El error estándar es la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra. Ahora, usted tiene su t stat. Para calcular un valor de p creo que no hay ninguna alternativa que buscar su valor de t dentro de una prueba de t de la tabla. Si usted acepta un simple Excel alternativa TDIST(t stat valor, DF, 1 o 2 para 1 o 2 de la cola valor de p) hace el truco. Para calcular un valor de p utilizando Z, la fórmula de Excel para un 1 cola de prueba es: (1 - NORMSDIST (valor Z). El valor de Z es el mismo que el t stat (o el número de error estándar de distancia de la media).

Solo como una advertencia, los métodos de prueba de hipótesis puede distorsionarse por el tamaño de la muestra. En otras palabras, cuanto más grande sea el tamaño de la muestra el más pequeño de su error estándar, mayor es el valor de Z o t stat, menor es el valor de p, y el más alto de su significación estadística. Como un atajo en esta lógica, los tamaños de muestra grandes tendrán una alta significación estadística. Pero, de alta significación estadística en la asociación con el gran tamaño de la muestra puede ser completamente irrelevante. En otras palabras, estadísticamente significativo, es una frase matemática. No necesariamente es significativo (por el diccionario Webster).

Para huir de esta muestra de gran tamaño de la trampa, los estadísticos se han movido en el Tamaño del Efecto de los métodos. El último uso como una unidad de distancia estadística entre dos observaciones de la Desviación Estándar en lugar de la Estándar de Error. Con un marco de tamaño de la muestra no tendrá ningún impacto sobre su significación estadística. Usando el Tamaño del Efecto también tienden a moverse lejos de los valores de p y hacia los Intervalos de Confianza que puede ser más significativo en la llanura inglés.

5voto

becky Puntos 11

La prueba de hipótesis se refiere siempre a la población. Si desea hacer una declaración acerca de la muestra, no necesita de prueba (basta con comparar lo que se ve). Frequentists creer en asymptotics, así como su tamaño de la muestra es grande, no se preocupe acerca de la distribución de los datos. La prueba Z y T-test básicamente la misma en términos de cálculo de la prueba estadística, sólo los valores críticos se obtienen a partir de diferentes distribuciones (Normal vs T-Student). Si el tamaño de la muestra es grande, la diferencia es marginal.

Con respecto a P1: basta con mirar lo de la distribución T con n-1 grados de libertad, donde n es el tamaño de la muestra.

Con respecto a T2: calcular el umbral según su nivel de significancia para una prueba Z, y basado en el nivel de significación en el tamaño de la muestra en el caso de la Prueba T-test.

Pero en serio, usted debe revisar algunos conceptos básicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X