Tan lejos como pruebas de significación va (o cualquier otra cosa que se hace esencialmente lo mismo como pruebas de significación), durante mucho tiempo he pensado que el mejor enfoque en la mayoría de las situaciones es probable que la estimación del tamaño del efecto estandarizado, con un 95% de intervalo de confianza acerca de que el tamaño del efecto. No hay nada realmente nuevo--matemáticamente puede shuffle de ida y vuelta entre ellos, si el valor de p para un 'nil' null <.05, entonces 0 se encuentran fuera de un 95% CI, y viceversa. La ventaja de esto, en mi opinión, es psicológica; es decir, hace más destacadas de la información que existe, pero que la gente no puede ver cuando sólo los valores de p son reportados. Por ejemplo, es fácil ver que un efecto es muy "significativo", pero ridículamente pequeño; o "no significativo", pero sólo porque las barras de error son enormes, mientras que el efecto estimado es más o menos lo que esperaba. Estos pueden ser emparejados con raw de valores y su CI.
Ahora, en muchos campos de la cruda valores son intrínsecamente significativa, y reconozco que plantea la cuestión de si es todavía vale la pena para calcular el tamaño del efecto de las medidas, dado que ya tenemos los valores como de los medios y de las laderas. Un ejemplo podría estar buscando en el retraso en el crecimiento; sabemos lo que significa un 20 años de edad, blanco, masculino para ser 6 +/- 2 pulgadas más corto (es decir, 15 +/- 5 cm), que de otra manera, así que ¿por qué mencionar $d=-1.6\pm.5$? Tiendo a pensar que todavía puede ser de valor en los informes de ambos, y las funciones pueden ser escritas para el cálculo de ambos, de modo que es muy poco de trabajo extra, pero reconozco que las opiniones varían. En cualquier caso, yo sostengo que el punto de las estimaciones de los intervalos de confianza reemplazar los valores de p como la primera parte de mi respuesta.
Por otro lado, creo que una pregunta más grande es 'es la cosa que pruebas de significación hace lo que realmente queremos?' Creo que el verdadero problema es que para la mayoría de la gente el análisis de los datos (es decir, los profesionales no estadísticos), pruebas de significación puede llegar a ser la totalidad de los análisis de datos. A mí me parece que la cosa más importante es tener una forma de principios para pensar acerca de lo que está pasando con nuestros datos, y la hipótesis nula pruebas de significación es, en el mejor, una muy pequeña parte de eso. Permítanme darles un ejemplo imaginario (reconozco que esto es una caricatura, pero, por desgracia, me temo que es un poco plausible):
Bob lleva a cabo un estudio, la recopilación de datos sobre algo-o la otra -. Él
espera que los datos siguen una distribución normal, la agrupación bien
alrededor de algún valor, y tiene la intención de llevar a cabo una one-sample t-test para ver
si sus datos son "significativamente diferente" de algunos pre-especificado
valor. Después de la recolección de la muestra, se comprueba para ver si sus datos son
normalmente distribuida, y descubre que no lo son. En su lugar, lo hacen
no se han pronunciado bulto en el centro, pero son relativamente altos durante un determinado
intervalo y, a continuación, trail con una larga cola izquierda. Bob preocupaciones acerca de
lo que debe hacer para asegurarse de que su prueba es válida. Él termina haciendo
algo (por ejemplo, una transformación, una prueba no paramétrica, etc.), y
a continuación, informa de un estadístico de prueba y un p-valor.
Espero que esto no salga igual de desagradable. No me refiero a burlarse de nadie, pero creo que algo como esto sucede de vez en cuando. Si este escenario se producen, todos estamos de acuerdo que es un mal análisis de los datos. Sin embargo, el problema no es que el estadístico de prueba o el p-valor es un error, podemos plantear que los datos fueron manejados adecuadamente en ese sentido. Yo diría que el problema es que Bob está involucrado en lo de Cleveland llamado "rote el análisis de los datos". Él parece creer que el único punto es que para obtener el derecho de p-valor, y piensa muy poco acerca de sus datos fuera de perseguir ese objetivo. Él incluso podría haber cambiado a mi sugerencia y reportó un tamaño del efecto estandarizado con un 95% de intervalo de confianza, y no han cambiado lo que yo veo como el mayor problema (esto es a lo que me refería haciendo "esencialmente la misma cosa" por un medio diferente). En este caso concreto, el hecho de que los datos no se vea de la forma que él esperaba (es decir, no eran normales) es real la información, es muy interesante, y muy posiblemente importante, pero que la información es esencialmente simplemente arrojado. Bob no reconocer esto, porque el enfoque en las pruebas de significación. A mi mente, que es el verdadero problema con las pruebas de significación.
Permítanme hablar un par de otras perspectivas que se han mencionado, y quiero ser muy claro que yo no estoy criticando a nadie.
- Se menciona con frecuencia que muchas personas realmente no entienden
los valores de p (por ejemplo, pensando que ellos son la probabilidad es de null
cierto), etc. A veces se argumenta que, si la gente use
el enfoque Bayesiano, estos problemas desaparecerían. Yo creo que la gente
pueden enfoque Bayesiano en el análisis de datos de una manera que es tan
incurious y mecánica. Sin embargo, creo que la incomprensión del significado de los valores de p sería menos dañina si no se pensó, obteniendo un valor de p era el objetivo.
- La existencia de 'big data' es generalmente ajenos a este problema. Big data sólo hace que sea obvio que la organización análisis de los datos alrededor de la 'importancia' no es un método útil.
- No creo que el problema es con la hipótesis de que está siendo probado. Si la gente sólo quería ver si el valor estimado es fuera de un intervalo, en lugar de si es igual a un valor de punto, muchos de los mismos problemas que podrían surgir. (De nuevo, quiero ser claro sé que no eres 'Bob'.)
- Para el registro, quiero mencionar que mi propia sugerencia desde el primer párrafo, ¿ no abordar el problema, como he tratado de señalar.
Para mí, este es el meollo de la cuestión: Lo que realmente queremos es una forma de principios para pensar acerca de lo que pasó. Lo que significa que en cualquier situación dada no es cortada y se seca. Cómo impartir que a los estudiantes en los métodos de la clase no es ni clara ni fácil. Pruebas de significación tiene mucha inercia y tradición detrás de él. En las estadísticas de la clase, es claro que lo que debe ser enseñado y cómo. Para estudiantes y profesionales se hace posible desarrollar un esquema conceptual para la comprensión del material, y una lista de comprobación / diagrama de flujo (he visto algunos!) para la realización del análisis. Pruebas de significación, naturalmente, puede evolucionar hacia la memorización de análisis de datos sin que nadie tonto o vago o mal. Ese es el problema.