Existe una cierta escuela de pensamiento según la cual la más extendida enfoque estadístico de prueba es un "híbrido" entre dos enfoques: el de Fisher y el de Neyman-Pearson; estos dos enfoques, el reclamo va, son "incompatibles" y, por tanto, el resultado de "híbrido" es una "mezcla incoherente". Yo le proporcionará una bibliografía y algunas de las citas a continuación, pero por ahora baste decir que hay mucho escrito sobre eso en el artículo de la wikipedia sobre las pruebas de hipótesis Estadísticas. Aquí en la CV, este punto fue reiterado por @Michael Lew (ver aquí y aquí).
Mi pregunta es: ¿por qué son F y N-P enfoques afirmó ser incompatibles y por qué es el híbrido afirmó ser incoherente? Nota que leí en menos de seis anti-híbrido de los documentos (véase más abajo), pero aún no entienden el problema o el argumento. Tenga en cuenta también, que no estoy sugiriendo a debate si F o N-P es un mejor enfoque; tampoco estoy ofreciendo para discutir frecuentista vs Bayesiano marcos. En cambio, la pregunta es: la aceptación de que tanto F y N-P son válidas y significativas enfoques, lo que es tan malo acerca de su híbrido?
Aquí es como yo entiendo la situación. Fisher enfoque es calcular el p-valor y tomar esto como una evidencia contra la hipótesis nula. Los más pequeños de la p, la más convincente la evidencia. El investigador se supone combinar esta evidencia con su conocimiento de fondo, decidir si es convincente, suficiente, y proceder en consecuencia. (Tenga en cuenta que Fisher vistas cambiado a lo largo de los años, pero esto es lo que parece haber finalmente convergente). En contraste, Neyman-Pearson enfoque es elegir α antes de tiempo y, a continuación, para comprobar si p≤α; si es así, llame significativo y rechazar la hipótesis nula (aquí puedo omitir gran parte de el P-N de la historia que no tiene ninguna relevancia para la actual discusión). Véase también una excelente respuesta por parte de @gung en Cuando a uso de Fisher y Neyman-Pearson marco?
El enfoque híbrido es calcular el p-valor, informe (suponiendo implícitamente que el más pequeño, mejor), y también llamar a los resultados significativos si p≤α (normalmente α=0.05) y no lo contrario. Se supone que esta es incoherente. ¿Cómo puede ser válido para hacer dos válidas cosas al mismo tiempo, me golpea.
Especialmente incoherente la anti-hybridists de vista de la práctica generalizada de la presentación de informes de pvalores p<0.05, p<0.01, o p<0.001 (o incluso p≪0.0001), donde siempre el más fuerte de la desigualdad es elegido. El argumento parece ser que (a) la fuerza de la evidencia no puede ser adecuadamente evaluados como exacta p no se informa, y (b) las personas tienden a interpretar el derecho-el número de la mano en la desigualdad como α y ver como tipo de la tasa de error, y eso está mal. No veo un gran problema aquí. En primer lugar, los informes exacta p es sin duda una mejor práctica, pero en realidad nadie le importa si p es, por ejemplo, 0.02 o 0.03, por lo que el redondeo es una escala logarítmica no es taaaan malo (y va por debajo de ∼0.0001 no tiene sentido, de todos modos, vea Cómo debe pequeña p-valores se reportan?). En segundo lugar, si el consenso es llamar a todo por debajo de 0.05 significativo, entonces la tasa de error será de α=0.05 y p≠α, @gung explica en la Interpretación del valor p en la prueba de hipótesis. Aunque posiblemente esto es una cuestión muy confusa, no me parecen más confuso que el de otras cuestiones en pruebas estadísticas (fuera de los híbridos). También, cada lector puede tener su propio favorito α en mente al leer un híbrido de papel, y de su propia tasa de error como consecuencia de ello. Entonces, ¿cuál es la gran cosa?
Una de las razones por las que me quiero hacer esta pregunta es porque, literalmente, duele ver cómo gran parte de la wikipedia artículo sobre pruebas de hipótesis Estadísticas se dedica a arremeter contra híbrido. Siguiente Halpin & Stam, se afirma que una cierta Lindquist es la culpa (incluso hay una gran exploración de su libro de texto con "errores" en amarillo), y, por supuesto, el artículo de wiki sobre Lindquist sí mismo comienza con la misma acusación. Pero entonces, tal vez me estoy perdiendo algo.
Referencias
-
Gigerenzer, 1993, El superego, el ego y el id en el razonamiento estadístico -- introdujo el término "híbrido" y la calificó de "incoherente batiburrillo"
- Ver también las más recientes exposiciones por Gigerenzer et al.: por ejemplo, sin sentido de estadística (2004) y El Nulo Ritual. Lo que Usted Siempre Quiso Saber Acerca de Pruebas de significación, pero Se atrevió a Preguntar (2004).
Cohen, 1994, La Tierra Es Redonda (p<.05) -- un muy popular de papel con casi 3k de citas, sobre todo acerca de diferentes temas, pero favorablemente citando Gigerenzer
Goodman, 1999, Hacia basada en la evidencia estadística médica. 1: El valor de P falacia
Hubbard & Bayarri, 2003, la Confusión sobre las medidas de evidencia (p's) y errores (α's) en el clásico estadístico de prueba -- uno de los más elocuentes papeles argumentando en contra de "híbrido"
Halpin & Stam, 2006, Inductivo de Inferencia o Inductivo Comportamiento: Fisher y Neyman-Pearson Enfoques Estadísticos de Prueba en la Investigación Psicológica (1940-1960) [gratis después registro] -- culpa Lindquist 1940 libro de texto para la introducción de la "híbrido" enfoque
@Michael Lew, 2006, Mala práctica de la estadística en farmacología (y otras disciplinas biomédicas): usted probablemente no sabe P -- una buena revisión y resumen
Comillas
Gigerenzer: Lo que se ha institucionalizado como la estadística inferencial en psicología no es Fisherian estadísticas. Es una mezcla incoherente de algunos de Fisher ideas, por un lado, y algunas de las ideas de Neymar y E. S. Pearson en el otro. Me refiero a esta mezcla como el "hybrid lógica" de la inferencia estadística.
Goodman: [Neyman-Pearson] prueba de hipótesis planteamiento ofrecido a los científicos una Pacto con el diablo -- aparentemente de manera automática para limitar el número de confusión de conclusiones en el largo plazo, pero sólo por el abandono de la capacidad para medir la evidencia [a la de Fisher] y evaluar la verdad de un solo experimento.
Hubbard & Bayarri: Clásica estadístico de prueba es anónima híbridos de la competencia y con frecuencia contradictorios enfoques [...]. En particular, existe un generalizado desconocimiento de la incompatibilidad de Fisher probatorio p valor con el Tipo de la tasa de error, α, de Neyman-Pearson estadístico de la ortodoxia. [...] Como un primer ejemplo de las confusiones derivadas de [este] la mezcla de [...], considerar el muy apreciado hecho de que el ex de p valor es incompatible con la Neyman-Pearson prueba de hipótesis en la que se ha incrustado. [...] Por ejemplo, los Gibones y Pratt [...] erróneamente se ha dicho: "informe de un P-valor, ya sea exacta o dentro de un intervalo, en efecto, permite a cada individuo a elegir su propio nivel de importancia como el máximo tolerable de la probabilidad de un error Tipo I."
Halpin & Stam: Lindquist 1940 texto fue una fuente original de la hibridación de los Fisher y Neyman-Pearson enfoques. [...] en lugar de adherirse a cualquier particular interpretación de las pruebas estadísticas, los psicólogos se han mantenido ambivalente acerca de, y de hecho en gran parte inconsciente de, las dificultades conceptuales implicados por el de Fisher y Neyman-Pearson controversia.
Lew: Lo que tenemos es un enfoque híbrido que ni los controles de las tasas de error ni permite la evaluación de la fuerza de la evidencia.