9 votos

Cuándo y cómo evitar el uso inadecuado de la prueba exacta de Fisher

¿Podría alguien explicar por qué Richard McElreath dice que la prueba exacta de Fisher rara vez se utiliza adecuadamente en su excelente libro de introducción a la Bayesiana ( Replanteamiento estadístico )?

Como referencia, el contexto es el siguiente:

¿Por qué las pruebas no son suficientes para la investigación innovadora? Los procedimientos clásicos de la estadística introductoria tienden a ser inflexibles y frágiles. Por inflexibles, quiero decir que tienen formas muy limitadas de adaptarse a contextos de investigación únicos. Por frágil, quiero decir que fallan de forma imprevisible cuando se aplican a nuevos contextos. Esto es importante, porque en los límites de la mayoría de las ciencias, casi nunca está claro qué procedimiento es el adecuado. Ninguno de los gólems tradicionales ha sido evaluado en contextos de investigación novedosos, por lo que puede ser difícil elegir uno y luego entender cómo se comporta. Un buen ejemplo es la prueba exacta de Fisher, que se aplica (exactamente) a un contexto empírico extremadamente estrecho, pero que se utiliza regularmente siempre que el número de células es pequeño. Personalmente, he leído cientos de usos de la prueba exacta de Fisher en revistas científicas, pero aparte del uso original de Fisher, nunca he visto que se utilice de forma adecuada. Incluso un procedimiento como la regresión lineal ordinaria, que es bastante flexible en muchos aspectos, pudiendo codificar una gran diversidad de hipótesis interesantes, es a veces frágil. Por ejemplo, si hay un error de medición considerable en las variables de predicción, el procedimiento puede fallar de forma espectacular. Pero lo más importante es que casi siempre es posible hacerlo mejor que la regresión lineal ordinaria, en gran parte debido a un fenómeno conocido como sobreajuste.

13voto

jasonmray Puntos 1303

Es difícil leer esta cita y no suponer que el autor considera un mero error utilizar la prueba exacta de Fisher cuando los totales marginales de una tabla de contingencia no son fijos por diseño. El "uso original de Fisher" de la prueba debe referirse a la famosa señora que prueba el té y a la que "se le ha dicho de antemano en qué consistirá la prueba, a saber, que se le pedirá que pruebe ocho tazas, que éstas serán cuatro de cada tipo, [...]" (Fisher (1935), El diseño de experimentos ); † & entonces "un contexto empírico extremadamente estrecho" equivale a "un esquema de muestreo aplicable a pocos estudios realizados en la práctica".

Pero no es un error: condicionar la estadística suficiente para la distribución de los datos bajo la hipótesis nula es una técnica estándar para eliminar los parámetros molestos y obtener pruebas del tamaño correcto (es la base de las pruebas de permutación). Los totales marginales contienen muy poca información que se pueda utilizar para estimar el parámetro de interés, la razón de probabilidades, y mucha sobre la precisión con la que se puede estimar: el argumento es que el espacio muestral que se obtiene condicionando en ambos es mucho más relevante para la inferencia que el que se obtiene condicionando sólo en uno, o sólo en el recuento total. Sin embargo, se trata de un espacio muestral terriblemente grueso, lo que da lugar a una lamentable pérdida de potencia. ¿Cómo se debe equilibrar la relevancia del espacio muestral con la pérdida de información? ¿Qué grado de grosor del espacio muestral es aceptable antes de que se prefiera una prueba asintóticamente válida o incondicional? Se trata de cuestiones controvertidas, y el análisis de las tablas de contingencia de dos en dos ha sido polémico durante medio siglo o más.

Dado que esto proviene de un texto bayesiano, creo que el autor ha perdido la oportunidad de burlarse de los dilemas a los que puede llevar el compromiso con el uso de métodos frecuentistas, como hace Jaynes en Teoría de la probabilidad: La lógica de la ciencia

En un artículo publicado el mismo año que su libro, utilizó un ejemplo en el que, aunque el esquema de muestreo no se da explícitamente, a lo sumo un margen podría haberse fijado de antemano, y lo más probable es que sólo se fijara el recuento total. Los gemelos del mismo sexo de delincuentes condenados se clasifican como monocigóticos frente a dicigóticos y como condenados por delitos propios frente a no condenados en una tabla de dos en dos (Fisher (1935), "The Logic of Inductive inference", JRSS, 98 , 1, pp 39-82). [Edición: Los datos proceden de Lange (1929), Verbrechen als Schicksal: Studien am kriminellen Zwillingen . Wetzell (2000), La invención del criminal: Una historia de la criminología alemana, 1880-1945 , p 162] describe el procedimiento de recogida de datos de Lange; en efecto, el recuento total fue fijado por el diseño del estudio].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X