Estoy tratando de comparar datos de 2 poblaciones para saber si la diferencia entre los tratamientos es estadísticamente significativa. Los conjuntos de datos parecen ser distribuido normalmente con muy poca diferencia entre los dos conjuntos. La diferencia promedio es 0.00017. He realizado una prueba de t pareada, esperando que yo no rechazo la hipótesis nula de ninguna diferencia entre los medios, sin embargo, mi valor de t calculado es mayor entonces mi valor de t crítico.
Respuestas
¿Demasiados anuncios?Para saber si la diferencia es muy grande o pequeña, requiere de algún tipo de medida de la escala, la desviación estándar es una medida de la escala, y es parte de la prueba de t de la fórmula de la cuenta en la parte de la escala.
Considerar si usted está comparando las alturas de 5 años de edad a las alturas de 20 años de edad (los seres humanos, la misma área geográfica, etc.). La intuición nos dice que hay una diferencia práctica hay y si las alturas se miden en pulgadas o centímetros, a continuación, la diferencia tendrá un aspecto significativo. Pero lo que si se puede convertir las alturas a kilómetros? o de años luz? a continuación, la diferencia va a ser un número muy pequeño (pero diferentes), pero (salvo errores de redondeo) la prueba de t va a dar el mismo resultado si la altura se mide en pulgadas, centímetros, kilómetros.
De modo que una diferencia de 0.00017 puede ser enorme, dependiendo de la escala de las mediciones.
No veo ninguna razón para creer que usted hizo algo mal sólo porque la prueba fue significativo, incluso si la diferencia de medias es muy pequeña. En una prueba de t pareada, el significado será impulsado por tres cosas:
- la magnitud de la diferencia de medias
- la cantidad de datos que tiene
- la desviación estándar de las diferencias
Ciertamente, su diferencia de medias es muy, muy pequeño. Por otra parte, usted tiene una buena cantidad de datos (N=335). El último factor es la desviación estándar de las diferencias. No sé lo que es, pero ya que usted tiene un resultado significativo, es seguro asumir que es lo suficientemente pequeño como para superar la pequeña diferencia de medias con la cantidad de datos que tiene. Por el bien de la construcción de una intuición, imaginar que la pareja de diferencia para cada observación en el estudio fueron 0.00017, entonces la desviación estándar de las diferencias sería 0. Sin duda, sería razonable concluir que el tratamiento llevado a una reducción (aunque sea pequeña).
Como @whuber notas en los comentarios de abajo, vale la pena señalar que, si bien 0.00017 parece un número muy pequeño qua número, no es necesariamente pequeño significativas de las condiciones. Saber que, necesitaríamos saber varias cosas, en primer lugar lo que las unidades son. Si las unidades son muy grandes (por ejemplo, años, kilómetros, etc.), lo que parece ser pequeño podría ser significativamente grande, mientras que si las unidades son pequeñas (por ejemplo, segundos, centímetros, etc.), esta diferencia parece aún más pequeño. En segundo lugar, incluso un pequeño cambio puede ser importante: imaginar algún tipo de tratamiento (por ejemplo, vacunas) que estaba muy barato, fácil de administrar para el conjunto de la población, y no tuvo efectos secundarios. Bien puede ser que vale la pena hacer, incluso si se guarda sólo muy pocas vidas.
Si su crítica a $t$ es menos de lo que se calcula, y suponiendo que la prueba era apropiado para su tipo particular de datos (un "si"), parece que su diferencia es estadísticamente significativa en el sentido de unlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populations
. Un importante $t$ en el contexto apropiado, generalmente significa que la diferencia observada es demasiado fiable distinto de cero para apoyar la hipótesis nula de que los datos no son "diferentes". Incluso una diferencia de $\frac{17}{100,000}$ puede ser significativo estadísticamente de cero si cada observó diferencia entre .00015–.00020. Observar!
pop1=rep(15:20* .00001, 56);pop2=rep(0,336) #Some fake samples of sample size = 336
t.test(pop1,pop2,paired=T) #Paired t-test with the following output...
$$t_{(335)}=187.55,p<2.2\times10^{-16}$$
Because these samples are very consistently different, the difference achieves statistical significance, even though they are of smaller scale than many of us are used to seeing in mundane, everyday numbers. In fact, you can scale down the data as much as you like by tacking as many zeros as your calculations can handle onto to the front of .00001
in my first line of R code. This will scale down the standard deviation of the differences as well; i.e., your differences will remain just as consistent, your $t$ seguirá siendo exactamente la misma, y por lo tanto su significado.
Tal vez estaría más interesado en la práctica la importancia que en este sentido literal de la hipótesis nula pruebas de significación. Importancia en la práctica dependerá mucho más sobre el significado de los datos en el contexto que en la significación estadística; no es puramente estadísticos de la materia. He citado un ejemplo útil de este principio en una respuesta a una pregunta popular aquí, Complaciente arraigadas opiniones de los p-valores:
Uno no puede concluir por el tamaño en sí de que un $r=.03$ es necesariamente poco importante si podría pertenecer a un asunto de vida y muerte [(Rosenthal, Rubin, Y Rosnow, 2000)].
Este "asunto de la vida y de la muerte" fue el tamaño del efecto de la aspirina sobre los ataques al corazón, básicamente – un poderoso ejemplo de la pequeña numéricamente, mucho menos diferencias consistentes con prácticamente un significado importante. Muchas otras preguntas con respuestas claras a partir de la cual se podría beneficiar merecen los enlaces aquí, incluyendo:
- ¿Por qué es "estadísticamente significativo" no es suficiente?
- práctica vs significación estadística
- Importancia práctica, especialmente con los porcentajes: "estándar" de la medida y el umbral
Referencia
Rosenthal, R., Rosnow, R. L., & Rubin, D. B. (2000). Los contrastes y los tamaños del efecto en la investigación del comportamiento: Un enfoque correlacional. Cambridge University Press.
Aquí está un ejemplo en R que muestra los conceptos teóricos en la acción. De 10.000 ensayos de lanzar una moneda 10.000 veces que tiene una probabilidad de jefes de .0001 en comparación con los 10.000 ensayos de lanzar una moneda 10.000 veces que tiene una probabilidad de jefes de .00011
t.de prueba(rbinom(10000, 10000, .0001), rbinom(10000, 10000, .00011))
t = -8.0299, df = 19886.35, p-valor = 1.03 e-15 hipótesis alternativa: la verdadera diferencia de medias no es igual a 0 95% intervalo de confianza: -0.14493747 -0.08806253 ejemplo de cálculos: media de media de x de y 0.9898 1.1063
La diferencia en la media es relativamente cerrado a 0 en términos de la percepción humana, sin embargo es muy estadísticamente diferente de 0.