¿Si mi resultado de la prueba t de una cara es significativo pero el tamaño de la muestra es pequeño (por ejemplo, por debajo de 20 o asi), puedo confiar este resultado? Si no, ¿cómo debo tratar o interpretar este resultado?
Respuestas
¿Demasiados anuncios?En raras ocasiones se debería confiar en un solo resultado significativo. No dijo por qué estaba usando una cola en lugar de una prueba de dos colas, por lo que esperamos que tengan una buena razón para hacerlo, otros que los que luchan para poder reclamar una diferencia estadísticamente significativa resultado!
Configuración de un lado, considerar el siguiente de la p. 261 de Sauro, J., & Lewis, J. R. (2016). La cuantificación de la Experiencia de Usuario: la Práctica de Estadísticas para el Usuario de la Investigación, 2ª Ed.. Cambridge, MA: Morgan Kaufmann.
Cómo Ronald Fisher recomienda el uso de p-valores
Cuando Karl Pearson fue el gran hombre de estadísticas y Ronald Fisher era un recién llegado relativo, Pearson, al parecer, amenazada por Fisher ideas y habilidad matemática, utilizó su influencia para impedir el Pescador de publicar en las principales revistas estadísticas de la época, Biometrika y el Diario de la Sociedad Real de Estadística. En consecuencia, Fisher publicó sus ideas en una variedad de otros lugares, tales como la agricultura y meteorológicos diarios, incluyendo varios de los documentos de las Actas de la Sociedad para la Investigación Psíquica. Fue en uno de los artículos de esta revista último que mencionó la convención de la configuración de lo que hoy llamamos aceptable de error de Tipo I (alfa) a 0,05 y, críticamente, también mencionó la importancia de la reproducibilidad cuando se produzca un inesperado resultado significativo:
Una observación que se considere significativo, si es que rara vez se han producido, en ausencia de una causa real de la clase que estamos buscando. Es una práctica común para juzgar a un resultado significativo, si es de tal magnitud que habría sido producido por la oportunidad, no con más frecuencia que una vez en veinte ensayos. Este es arbitraria, pero conveniente, el nivel de significación para la práctica del investigador, pero no significa que se permite a sí mismo ser engañado una vez cada veinte experimentos. La prueba de significación sólo le dice lo ignore, es decir, todos los experimentos en los cuales significativo no se obtienen resultados. Sólo debe afirmar que un fenómeno experimentalmente demostrable cuando él sabe cómo diseñar un experimento de modo que rara vez fallan al dar un resultado significativo. En consecuencia, aislado resultados significativos que él no sabe cómo reproducir quedan en suspenso a la espera de más investigación. (Fisher, 1929, pág. 191)
Referencia
Fisher, R. A. (1929). El método estadístico en la investigación psíquica. Actas de la Sociedad para la Investigación Psíquica, 39, 189-192.
En teoría, si todos los supuestos de la prueba de t se cumple, entonces no hay ningún problema con un tamaño de muestra pequeño.
En la práctica hay algunos que no son muy verdaderos supuestos que nos puede salir con el para tamaños de muestra grandes, pero pueden causar problemas para los pequeños tamaños de muestra. ¿Sabe usted si la distribución subyacente sigue una distribución normal? Son todas las muestras independientes e idénticamente distribuidas?
Si usted duda de la validez de la prueba, a continuación, una alternativa puede hacer uso de bootstrap. Bootstrapping implica la repetición de muestreo de la muestra con el fin de ver cómo a menudo la hipótesis nula es verdadera o falsa. Tal vez su hipótesis nula es $\mu<0$ y su p-valor es de 0.05, pero el bootstrap muestra que la media de la muestra es menor que cero el 10% del tiempo. Esto indicaría que fue un golpe de suerte, que causó un valor de p de 0,05 y usted debe ser menos seguro de que la hipótesis nula es falsa.
Imagínate a ti mismo en una situación donde usted lo está haciendo muchas pruebas similares, en un conjunto de circunstancias en que alguna fracción de los valores nulos son verdaderas.
De hecho, vamos a modelo con un súper sencilla urna de tipo de modelo; en la urna, de la que hay bolas numeradas cada una correspondiente a un experimento que podría hacer, algunos de los cuales tienen el null true y algunos de los cuales han null false. Llame a la proporción de verdaderos valores nulos en la urna $t$.
Para simplificar aún más la idea, vamos a asumir que el poder de esos falsos valores nulos es constante (en $(1-\beta)$, ya que el $\beta$, es habitual el símbolo para el tipo II de la tasa de error).
Elegir alguno de los experimentos de nuestra urna ($n$ de ellos, digamos) "al azar", de realizar ellos y rechazar o no rechazar sus hipótesis. Podemos suponer que el número total de experimentos en la urna ($M$, por ejemplo) es lo suficientemente grande como para no hacer una diferencia que este es el muestreo sin reemplazo (es decir, estaremos encantados de aproximar esta como un binomio, si es necesario), y tanto $n$ $M$ son suficientemente grande como para que podamos hablar de lo que sucede, en promedio, como si lo que experimentamos.
¿Qué proporción de los rechazos será "correcto"?
Espera que el número total de rechazos: $nt\alpha+n(1-t)(1-\beta)$
Espera que el número total de rechazos correctos: $n(1-t)(1-\beta)$
En general la proporción de veces que un rechazo en realidad era la decisión correcta: $\frac{(1-t)(1-\beta)}{t\alpha+(1-t)(1-\beta)}$
En general la proporción de veces que un rechazo fue un error: $\frac{t\alpha}{t\alpha+(1-t)(1-\beta)}$
Para la proporción de rechazos correctos para ser más que un pequeño número que usted necesita para evitar la situación en la que $(1-t)(1-\beta)\ll t\alpha$
Puesto que en nuestra instalación de una fracción importante de los valores nulos son verdaderas, si $1-\beta$ no es sustancialmente mayor que $\alpha$ (es decir, si no tienen bastante alto poder), un montón de nuestros rechazos son errores!
Así que cuando el tamaño de la muestra es pequeño (y por lo tanto la energía está baja), a menos que esperar casi todos sus valores nulos para ser falso, que a menudo están cometiendo un error al rechazar.
La situación no es mucho mejor si casi todos nuestros valores nulos son estrictamente falso -, mientras que la mayoría de nuestros rechazos sea la correcta (trivialmente, desde pequeños efectos aún son estrictamente falso), si el poder no es alto, una fracción sustancial de los rechazos será "en la dirección equivocada" - vamos a concluir la nula es falsa bastante a menudo porque por casualidad la muestra resultó estar en el lado equivocado (esto puede ser un argumento para el uso de una cara pruebas - cuando una cara pruebas sentido - al menos evitar los rechazos que no tienen ningún sentido si los tamaños de muestra grandes son difíciles de conseguir).
Podemos ver que los pequeños tamaños de muestra, ciertamente, puede ser un problema.
[Esta proporción incorrecta de los rechazos se llama la tasa de falso descubrimiento]
Algunos de Gossett del trabajo original (aka Estudiante), para el que se desarrolló la prueba de la t, que participan de la levadura muestras de n=4 y 5. La prueba fue diseñada específicamente para muestras muy pequeñas. De lo contrario, la aproximación normal estaría bien. Dicho esto, Gossett estaba haciendo muy cuidado, experimentos controlados en los datos que él entendía muy bien. Hay un límite para el número de cosas que una fábrica de cerveza tiene a prueba, y Gossett pasó su vida trabajando en el Guinness. Él sabía que sus datos.
Estoy un poco sospechoso de su énfasis en uno de los lados de la prueba. La lógica de la prueba es la misma, sea cual sea la hipótesis, pero he visto a gente ir con un significativo cara prueba cuando los dos lados no fue significativa.
Esto es lo que un (superior) a una cara de la prueba implica. Ustedes son la prueba de que un medio es el 0. Usted hace la matemáticas y están preparados para rechazar cuando T > 2.5. Ejecutar el experimento y observar que T=-50,000. Usted dice, "phhhhht", y la vida sigue. A menos que sea físicamente imposible que el estadístico de prueba a hundirse por debajo de la hipótesis de valor de parámetro, y menos que nunca iba a tomar ninguna decisión si el estadístico de prueba va en la dirección contraria a la que se espera, se debe utilizar una prueba de dos caras.
La cosa principal que usted necesita preocuparse es por el poder de su prueba. En particular, es posible que desee hacer un post-hoc de análisis del poder para determinar la probabilidad de que usted, dado su tamaño de la muestra, para identificar a un verdadero efecto significativo de un tamaño razonable. Si típicos de los efectos son muy grandes, un n de 8 podría ser totalmente adecuada (como con muchos de los experimentos en biología molecular). Si los efectos que usted está interesado en son típicamente sutil, sin embargo (como en muchos experimentos de psicología social), un n de miles de personas que todavía podría ser de poca potencia.
Esto es importante porque la falta de potencia de las pruebas pueden dar resultados engañosos. Por ejemplo, si su prueba es de poca potencia, incluso si usted encuentra un resultado significativo, usted tiene una probabilidad relativamente alta de hacer lo que Andrew Gelman llama un "Tipo S" de error, es decir, hay un efecto real, pero en la dirección opuesta, o un "Tipo " M" de error, es decir, hay un efecto real, pero la verdadera magnitud es mucho más débil de lo que se estima a partir de los datos.
Gelman y Carlin escribió un útil papel haciendo el post-hoc de análisis de poder de las que creo que se aplica en su caso. Es importante destacar, que recomiendan el uso de datos independientes (es decir, no los datos de la prueba, sino que revisa, modelado, los resultados de experimentos similares, etc.) para estimar un posible efecto verdadero tamaño. Al realizar el análisis del poder de usar que plausible estimado verdadero tamaño del efecto y la comparación de sus resultados, se puede determinar la probabilidad de realizar un Tipo S de error y el típico "exageración relación," y así obtener una mejor idea de lo fuerte que es tu evidencia de que realmente es.