Processing math: 100%

68 votos

¿El "híbrido" entre Fisher y Neyman-Pearson enfoques estadísticos prueba realmente una "mezcolanza incoherente"?

Existe una cierta escuela de pensamiento según la cual la más extendida enfoque estadístico de prueba es un "híbrido" entre dos enfoques: el de Fisher y el de Neyman-Pearson; estos dos enfoques, el reclamo va, son "incompatibles" y, por tanto, el resultado de "híbrido" es una "mezcla incoherente". Yo le proporcionará una bibliografía y algunas de las citas a continuación, pero por ahora baste decir que hay mucho escrito sobre eso en el artículo de la wikipedia sobre las pruebas de hipótesis Estadísticas. Aquí en la CV, este punto fue reiterado por @Michael Lew (ver aquí y aquí).

Mi pregunta es: ¿por qué son F y N-P enfoques afirmó ser incompatibles y por qué es el híbrido afirmó ser incoherente? Nota que leí en menos de seis anti-híbrido de los documentos (véase más abajo), pero aún no entienden el problema o el argumento. Tenga en cuenta también, que no estoy sugiriendo a debate si F o N-P es un mejor enfoque; tampoco estoy ofreciendo para discutir frecuentista vs Bayesiano marcos. En cambio, la pregunta es: la aceptación de que tanto F y N-P son válidas y significativas enfoques, lo que es tan malo acerca de su híbrido?


Aquí es como yo entiendo la situación. Fisher enfoque es calcular el p-valor y tomar esto como una evidencia contra la hipótesis nula. Los más pequeños de la p, la más convincente la evidencia. El investigador se supone combinar esta evidencia con su conocimiento de fondo, decidir si es convincente, suficiente, y proceder en consecuencia. (Tenga en cuenta que Fisher vistas cambiado a lo largo de los años, pero esto es lo que parece haber finalmente convergente). En contraste, Neyman-Pearson enfoque es elegir α antes de tiempo y, a continuación, para comprobar si pα; si es así, llame significativo y rechazar la hipótesis nula (aquí puedo omitir gran parte de el P-N de la historia que no tiene ninguna relevancia para la actual discusión). Véase también una excelente respuesta por parte de @gung en Cuando a uso de Fisher y Neyman-Pearson marco?

El enfoque híbrido es calcular el p-valor, informe (suponiendo implícitamente que el más pequeño, mejor), y también llamar a los resultados significativos si pα (normalmente α=0.05) y no lo contrario. Se supone que esta es incoherente. ¿Cómo puede ser válido para hacer dos válidas cosas al mismo tiempo, me golpea.

Especialmente incoherente la anti-hybridists de vista de la práctica generalizada de la presentación de informes de pvalores p<0.05, p<0.01, o p<0.001 (o incluso p0.0001), donde siempre el más fuerte de la desigualdad es elegido. El argumento parece ser que (a) la fuerza de la evidencia no puede ser adecuadamente evaluados como exacta p no se informa, y (b) las personas tienden a interpretar el derecho-el número de la mano en la desigualdad como α y ver como tipo de la tasa de error, y eso está mal. No veo un gran problema aquí. En primer lugar, los informes exacta p es sin duda una mejor práctica, pero en realidad nadie le importa si p es, por ejemplo, 0.02 o 0.03, por lo que el redondeo es una escala logarítmica no es taaaan malo (y va por debajo de 0.0001 no tiene sentido, de todos modos, vea Cómo debe pequeña p-valores se reportan?). En segundo lugar, si el consenso es llamar a todo por debajo de 0.05 significativo, entonces la tasa de error será de α=0.05 y pα, @gung explica en la Interpretación del valor p en la prueba de hipótesis. Aunque posiblemente esto es una cuestión muy confusa, no me parecen más confuso que el de otras cuestiones en pruebas estadísticas (fuera de los híbridos). También, cada lector puede tener su propio favorito α en mente al leer un híbrido de papel, y de su propia tasa de error como consecuencia de ello. Entonces, ¿cuál es la gran cosa?

Una de las razones por las que me quiero hacer esta pregunta es porque, literalmente, duele ver cómo gran parte de la wikipedia artículo sobre pruebas de hipótesis Estadísticas se dedica a arremeter contra híbrido. Siguiente Halpin & Stam, se afirma que una cierta Lindquist es la culpa (incluso hay una gran exploración de su libro de texto con "errores" en amarillo), y, por supuesto, el artículo de wiki sobre Lindquist sí mismo comienza con la misma acusación. Pero entonces, tal vez me estoy perdiendo algo.


Referencias

Comillas

Gigerenzer: Lo que se ha institucionalizado como la estadística inferencial en psicología no es Fisherian estadísticas. Es una mezcla incoherente de algunos de Fisher ideas, por un lado, y algunas de las ideas de Neymar y E. S. Pearson en el otro. Me refiero a esta mezcla como el "hybrid lógica" de la inferencia estadística.

Goodman: [Neyman-Pearson] prueba de hipótesis planteamiento ofrecido a los científicos una Pacto con el diablo -- aparentemente de manera automática para limitar el número de confusión de conclusiones en el largo plazo, pero sólo por el abandono de la capacidad para medir la evidencia [a la de Fisher] y evaluar la verdad de un solo experimento.

Hubbard & Bayarri: Clásica estadístico de prueba es anónima híbridos de la competencia y con frecuencia contradictorios enfoques [...]. En particular, existe un generalizado desconocimiento de la incompatibilidad de Fisher probatorio p valor con el Tipo de la tasa de error, α, de Neyman-Pearson estadístico de la ortodoxia. [...] Como un primer ejemplo de las confusiones derivadas de [este] la mezcla de [...], considerar el muy apreciado hecho de que el ex de p valor es incompatible con la Neyman-Pearson prueba de hipótesis en la que se ha incrustado. [...] Por ejemplo, los Gibones y Pratt [...] erróneamente se ha dicho: "informe de un P-valor, ya sea exacta o dentro de un intervalo, en efecto, permite a cada individuo a elegir su propio nivel de importancia como el máximo tolerable de la probabilidad de un error Tipo I."

Halpin & Stam: Lindquist 1940 texto fue una fuente original de la hibridación de los Fisher y Neyman-Pearson enfoques. [...] en lugar de adherirse a cualquier particular interpretación de las pruebas estadísticas, los psicólogos se han mantenido ambivalente acerca de, y de hecho en gran parte inconsciente de, las dificultades conceptuales implicados por el de Fisher y Neyman-Pearson controversia.

Lew: Lo que tenemos es un enfoque híbrido que ni los controles de las tasas de error ni permite la evaluación de la fuerza de la evidencia.

18voto

Jeff Bauer Puntos 236

Creo que los documentos, artículos, posts e.t.c. que diligentemente se reunieron, contienen suficiente información y análisis en cuanto a dónde y por qué los dos enfoques diferentes. Pero ser diferente no significa ser incompatibles.

El problema con el "híbrido" es que es un híbrido, y no una síntesis, y esta es la razón por la que es tratada por muchos como una de hybris, si usted se excusa el juego de palabras.
No ser una síntesis, no intenta combinar las diferencias de los dos enfoques, y crear una unificada y coherente internamente enfoque, o mantener ambos enfoques en el arsenal científico como complementarias alternativas, con el fin de afrontar de manera más eficaz con el mundo muy complejo tratamos de analizar a través de las Estadísticas (por suerte, esto último es lo que parece estar pasando con el otro gran guerra civil en el campo, el frecuentista-bayesiano).

La insatisfacción con esto yo creo que viene de el hecho de que de hecho se ha creado malentendidos en la aplicación de los instrumentos estadísticos y la interpretación de los resultados estadísticos, principalmente por los científicos que no son estadísticos, los malentendidos que pueden tener, posiblemente, muy graves y perjudiciales efectos (pensar en el campo de la medicina ayuda a dar el problema de su correspondiente tono dramático). Esta aplicación, es que yo creo, ampliamente aceptado como un hecho-y en ese sentido, la "anti-híbrido" punto de vista puede ser considerado como generalizado (al menos debido a las consecuencias que tuvo, si no por cuestiones metodológicas).

Veo la evolución de la materia hasta el momento como un accidente histórico (pero no tengo un p-valor o un rechazo a la región para mi hipótesis), debido a la desafortunada batalla entre los fundadores. Fisher y Neyman/Pearson han luchado amargamente y públicamente durante décadas por encima de sus enfoques. Esto crea la impresión de que aquí es una dicotómica de la materia: el enfoque debe ser el de "derecho", y el otro debe ser "malo".

El híbrido surgido, creo, fuera de la comprensión de que no hay tal respuesta fácil existido y que existen en el mundo real de los fenómenos a los que el enfoque es más adecuado que el otro (ver este post por ejemplo, de acuerdo al menos para mí, donde la Fisherian enfoque parece más adecuado). Pero en lugar de mantener los dos "separados y listos para actuar", que eran más bien de forma superflua parcheado juntos.

Me ofrecen una fuente que resume esta "alternativa complementaria" enfoque: Spanos, A. (1999). La teoría de la probabilidad y la inferencia estadística: la elaboración de modelos econométricos con datos observacionales. Cambridge University Press., ch. 14, especialmente la Sección 14.5, donde después de la presentación formal y claramente los dos enfoques, el autor está en una posición para señalar sus diferencias con claridad, y también argumentan que pueden ser vistas como complementarias alternativas.

16voto

zowens Puntos 1417

Mi propia mi pregunta es que no hay nada particularmente incoherente en el híbrido (es decir, aceptado). Pero como yo no estaba seguro de si yo soy tal vez no comprender la validez de los argumentos presentados en el anti-híbrido papeles, yo estaba feliz de encontrar a la discusión publicado junto con este documento:

Por desgracia, dos respuestas publicadas como una discusión no se ha dado formato como artículos independientes y por lo tanto no pueden ser debidamente citado. Aún así, me gustaría citar dos de ellos:

Berk: El tema de las Secciones 2 y 3 parece ser que Fisher no lo Neyman y Pearson hizo, y Neymar no lo Fisher hizo, y por lo tanto nos no debe hacer nada que combina los dos enfoques. No hay escape de la la premisa aquí, pero el razonamiento que se me escapa.

Carlton: los autores rotundamente a insistir en que la mayoría de la confusión se debe a que el matrimonio de Fisherian y Neyman-Pearsonian ideas, que un matrimonio es un error catastrófico en la parte de la moderna estadísticos [...] [T]hey parecen tener la intención de establecer que los valores de P y los errores de Tipo I no pueden coexistir en el mismo universo. No está claro si los autores han dado a cualquier sustantivo razón por la que no podemos pronunciar "valor de p" y "error Tipo I" en la misma frase. [...] El "hecho" de su [F NP] incompatibilidad viene como una noticia sorprendente para mí, como estoy seguro de que lo hace a los miles de calificados estadísticos de leer el artículo. Los autores incluso parecen sugerir que entre las razones de los estadísticos deben ahora divorcio estos dos ideas es que Fisher y Neyman no eran muy aficionado de uno a otro (o de cada uno filosofías en las pruebas). Yo siempre he visto a nuestra práctica actual, que integra Fisher y Neyman la filosofía y permite la discusión de los dos valores de P y Los errores de tipo I, aunque ciertamente no en paralelo -- como uno de nuestros disciplina del mayor de los triunfos.

Ambas respuestas son muy vale la pena leer. También hay una dúplica por los autores originales, que no suena convincente para mí en absoluto.

11voto

Auron Puntos 2123

Me temo que una respuesta real a este excelente pregunta requeriría una longitud total de papel. Sin embargo, aquí hay un par de puntos que no están presentes en la pregunta o las respuestas actuales.

  1. La tasa de error 'pertenece' para el procedimiento, pero la evidencia "pertenece" a los resultados experimentales. Por lo tanto es posible con la multi-etapa de los procedimientos secuencial de reglas de detención para tener un resultado con una evidencia muy fuerte en contra de la hipótesis nula, pero no significativa en el resultado de la prueba de hipótesis. Que puede ser pensado como una fuerte incompatibilidad.

  2. Si usted está interesado en el régimen de incompatibilidades, usted debe estar interesado en las filosofías subyacentes. La filosofía de la dificultad proviene de una elección entre el cumplimiento con la Probabilidad de Principio y de conformidad con el Muestreo Repetido Principio. El LP dice más o menos que, dado un modelo estadístico, la evidencia de un conjunto de datos relevantes para el parámetro de interés es completamente contenidos en la correspondiente probabilidad de la función. El RSP dice que uno debe preferir las pruebas que dan las tasas de error en el largo plazo que la igualdad de sus valores nominales.

8voto

Bill Puntos 16

A menudo visto (y supuestamente aceptado) de la unión (o mejor: "hybrid") entre los dos enfoques es el siguiente:

  1. Establecer un preespecificado nivel α (0.05 decir)
  2. Luego de probar su hipótesis, por ejemplo, Ho:μ=0 vs H1:μ0
  3. Estado el valor de p, y formular su decisión basado en el nivel de α:

    Si el resultado el valor de p es menor a α, se podría decir

    • "Me rechazan Ho" o
    • "Me rechazan Ho" en favor de H1" o
    • "Yo soy de 100%(1α) ciertos H1 sostiene"

    Si el valor de p no es lo suficientemente pequeña, ustedes dirán

    • "No puedo rechazar Ho" o
    • "No puedo rechazar Ho en favor de H1"

Aquí, los aspectos de Neyman-Pearson son:

  • Usted decide algo
  • Usted tiene una hipótesis alternativa a la mano (aunque es justo la contraria de Ho)
  • Usted sabe el tipo de la tasa de error

Fisherian aspectos son:

  • Afirma que el p-valor. Cualquier lector tiene la posibilidad de utilizar su propio nivel (por ejemplo, estrictamente para la corrección de pruebas múltiples) para la toma de
  • Básicamente, sólo la hipótesis nula es necesaria ya que la alternativa es justo el contrario
  • Usted no sabe el tipo II de la tasa de error. (Pero usted podría obtener de inmediato para valores específicos de μ0.)

ADD-ON

Aunque es bueno ser consciente de la discusión acerca de los problemas filosóficos de la de Fisher, NP o de este enfoque híbrido (como se enseña en casi frenesí religioso por algunos), hay mucho más de los temas relevantes en las estadísticas para luchar contra:

  • Pidiendo informativo preguntas (como binario preguntas sí/no, en lugar de cuantitativa "cuánto", es decir, utilizando las pruebas en lugar de intervalos de confianza)
  • Impulsados por los datos de los métodos de análisis que falsear los resultados (regresión paso a paso, los supuestos de las pruebas, etc.)
  • Elegir mal las pruebas o métodos
  • Interpretación errónea de los resultados
  • El uso clásico de estadísticas para muestras no aleatorias

6voto

Kevin Zink Puntos 81

la aceptación de que tanto F y N-P son válidas y significativas enfoques, qué es tan malo acerca de su híbrido?

Respuesta corta: el uso de un valor cero (no hay diferencia, no hay correlación) hipótesis nula, independientemente del contexto. Todo lo demás es un "mal uso" de las personas que han creado mitos acerca de lo que el proceso puede lograr. Los mitos surgen de personas que intentan conciliar sus (a veces es apropiado) uso de la confianza en la autoridad y el consenso heurística con la inaplicabilidad del procedimiento para su problema.

Que yo sepa Gerd Gigerenzer ocurrió con el término "híbrido":

Le pregunté al autor [de una distinguida estadístico de libros de texto de autor, cuyo libro fue a través de muchos ediciones, y cuyo nombre no importa] ¿por qué se le retira el capítulo de Bayes, así como la inocente frase de todas las ediciones siguientes. "¿Qué te hizo presente estadísticas como si hubiera un solo martillo, en lugar de una caja de herramientas? ¿Por qué la mezcla de Fisher y Neyman–Pearson teorías en un incoherente híbrido que cada decente estadístico iba a rechazar?"

A su crédito, debo decir que el autor no intentó negar que se había producido la ilusión de que no es sólo una herramienta. Pero dejó me sé de quién fue la culpa de esto. Hay tres causas: su otros investigadores, la administración de la universidad, y su editor. La mayoría de los investigadores, argumentó, no están realmente interesados en estadística el pensamiento, pero sólo en cómo obtener sus papeles publicados [...]

El nulo ritual:

  1. Establecer un estadístico de la hipótesis nula de "no diferencia de medias" o "correlación cero." No especifica las predicciones de su investigación hipótesis o de cualquier otro sustantivo hipótesis.

  2. Utiliza el 5% de un convenio para rechazar la nula. Si es significativo, acepta la hipótesis de investigación. Reportar el resultado como p<0.05, p<0.01 , o p<0.001 (lo que viene junto a la obtuvo p-valor).

  3. Siempre realizar este procedimiento.

Gigerenzer, G (Noviembre De 2004). "Descerebrados estadísticas". El Diario de Socio-Economía, 33 (5): 587-606. doi:10.1016/j.socec.2004.09.033.

Editar: Y siempre debemos necesario mencionar, porque el "híbrido" es tan resbaladizo y mal definido, que el uso de la nula nula para obtener un p-valor está perfectamente bien como una forma de comparar los tamaños del efecto de diferentes tamaños de muestra. Es la "prueba" de aspecto que presenta el problema.

Edit 2: @ameba Un p-valor puede estar bien como un resumen de la estadística, en este caso, la nula hipótesis nula es sólo una arbitraria hito: http://arxiv.org/abs/1311.0081. Sin embargo, tan pronto como usted comience tratando de sacar una conclusión o tomar una decisión (es decir, "prueba" de la hipótesis nula) deja de tener sentido. En la comparación de dos grupos de ejemplo, queremos saber cómo los diferentes grupos y las diversas posibles explicaciones de las diferencias de que la magnitud y tipo.

El valor de p puede ser utilizado como un resumen de la estadística nos dice que la magnitud de la diferencia. Sin embargo, utilizando para "refutar/rechazar" cero diferencia no sirve para nada, que puedo decir. También, creo que muchos de estos diseños de estudios que comparan el promedio de las mediciones de los seres vivos en un único punto temporal son las equivocadas. Debemos querer observar cómo las distintas instancias del sistema cambian con el tiempo, luego vienen con un proceso que explica el patrón observado (incluyendo las diferencias de grupo).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X