28 votos

¿Cuándo tiene sentido el planteamiento de Fisher de "ir a por más datos"?

Citando a la gran respuesta de gung

Al parecer, en una ocasión un investigador se dirigió a Fisher con resultados "no significativos" y le preguntó qué debía hacer.

Desde una perspectiva Neyman-Pearson, esto es flagrante $p$ -hacking, pero ¿hay algún caso en el que tenga sentido el planteamiento de Fisher de obtener más datos?

12 votos

Fisher (repetidamente) enfatizó la importancia de la replicación de experimentos y espero que esa fuera su intención aquí (asumiendo que la conversación tuvo lugar). Sin duda, Fisher era muy consciente de que no se puede comprobar la significación y luego ampliar la muestra inicial si no se consigue.

1 votos

@Glen_b He oído antes la expresión "replicación de experimentos", pero no la he entendido bien. ¿Me lo puedes explicar mejor? Digamos, ¿son mejores diez réplicas de un experimento cuyo tamaño muestral es 10 que un único experimento cuyo tamaño muestral es 100?

2 votos

En un estudio exploratorio, puede ser aceptable obtener más datos. En un estudio de confirmación, no es posible obtener más datos.

32voto

James Puntos 21

El paradigma frecuentista es una fusión de los puntos de vista de Fisher y Neyman-Pearson. Sólo al utilizar un enfoque y otra interpretación surgen problemas.

A nadie debería extrañarle que recopilar más datos sea problemático, ya que más datos son más pruebas. De hecho, el problema no radica en recopilar más datos, sino en utilizar los $p$ -valor para decidir hacerlo, cuando también es la medida de interés. Recoger más datos basados en la $p$ -valor es sólo $p$ -hacking si calcula un nuevo $p$ -valor.

Si no dispone de pruebas suficientes para llegar a una conclusión satisfactoria sobre la pregunta de investigación, no dude en obtener más datos. Sin embargo, reconoce que ya has superado la fase NHST de tu investigación y céntrate en cuantificar el efecto del interés.


Una nota interesante es que los bayesianos no sufren este dilema. Consideremos el siguiente ejemplo:

  • Si un frecuentista concluye que no hay diferencias significativas y luego cambia a una prueba de equivalencia, seguramente la tasa de falsos positivos habrá aumentado;
  • Un bayesiano puede expresar simultáneamente el intervalo de máxima densidad y la región de equivalencia práctica de una diferencia y dormir igual por la noche.

0 votos

Así que, básicamente, digamos que quiero probar si la media de la población A es igual a la de la población B. Inicialmente, obtengo algunos datos, realizo una prueba de $H_0$ : "las medias son iguales", y no consigo rechazarla. En este caso, no debo realizar otra prueba de $H_0$ : "las medias NO son iguales". Lo único que puedo hacer es estimar los intervalos confidenciales de las medias, ¿es correcto? ¿Y si no hay solapamiento entre los dos intervalos?

6 votos

"Sólo es p-hacking si calculas un nuevo valor p". ¿No depende esto totalmente del método utilizado para calcular el valor p? Ignorar el análisis secuencial y la decisión de recopilar más datos dará como resultado un valor p inexacto. Sin embargo, si incorpora la regla de decisión de recopilar más datos en el cálculo del valor p, obtendrá un valor p válido.

4 votos

@jsk Creo que no se trata tanto de que los p-valores calculados posteriormente no sean válidos de alguna manera, sino más bien de que estás utilizando una norma arbitraria y no basada en datos para juzgar cuándo tu experimento es "correcto" y tu investigación sobre ese proyecto está "terminada". Decidir que todos los p-valores no significativos son erróneos y recopilar datos hasta obtener uno que es significativo y luego detenerse porque se ha obtenido el resultado "correcto" es lo contrario de la ciencia experimental.

11voto

Underminer Puntos 1112

Dada una lo suficientemente grande como del tamaño de la muestra, una prueba que siempre se muestran resultados significativos, a menos que el verdadero tamaño del efecto es exactamente cero, como se discute aquí. En la práctica, el verdadero tamaño del efecto no es cero, por lo que la recopilación de más datos que finalmente será capaz de detectar las más mínimas diferencias.

El (OMI) burlón respuesta de Fisher fue en respuesta a una relativamente trivial la pregunta que en su premisa es confundir la 'diferencia significativa' con 'relevante en la práctica la diferencia'.

Sería el equivalente a un investigador que viene a mi oficina y preguntar "pesaba este peso de plomo con la etiqueta '25 gramos' y midió 25.0 gramos. Yo creo que es mal etiquetados, ¿qué debo hacer?" Para que yo pudiera contestar, "Obtener una información más precisa de la escala."

Creo que el go-conseguir-mas-planteamiento de los datos es adecuada si la prueba inicial es de muy poca potencia para detectar la magnitud de la diferencia que es relevante en la práctica.

0 votos

La cuestión, sin embargo, es que hay que incorporar la decisión de obtener más datos al cálculo del valor p.

0 votos

@jsk aunque cambies el valor p, aún puedes reunir más datos para encontrar un resultado significativo (aunque necesitarías aún más datos).

1 votos

Podría haber sido más claro. No estoy seguro de a qué te refieres exactamente con "todavía PUEDES reunir más datos para encontrar un resultado significativo". Entiendo que, dado que la hipótesis nula generalmente nunca es cierta, la recopilación de más datos conducirá finalmente a un resultado significativo. Sólo quería llamar la atención sobre el hecho de que, al calcular el valor p, hay que incorporar la decisión de recopilar más datos en el cálculo del valor p. Esto significa que las reglas de decisión (sobre la recogida de más datos) deben especificarse previamente a la recogida de datos original.

9voto

Sean Hanley Puntos 2428

Gracias. Hay un par de cosas a tener en cuenta aquí:

  1. La cita puede ser apócrifa.
  2. Es bastante razonable ir a buscar más / mejores datos, o datos de una fuente diferente (escala más precisa, cf., Respuesta de @Underminer situación o controles diferentes; etc.), para un segundo estudiar (cf, Comentario de @Glen_b ). Es decir, no analizaría los datos adicionales junto con los datos originales: digamos que tenía N=10 con un resultado no significativo, podría reunir otros N=20 datos y analizarlos solos (sin probar los 30 juntos). Si la cita no es apócrifa, eso podría haber sido lo que Fisher tenía en mente.
  3. La filosofía de la ciencia de Fisher era esencialmente Popperiano . Es decir, el nulo no era necesariamente algo a rechazar perfunctoriamente para confirmar su teoría, sino que idealmente podría ser su propia teoría, de modo que el rechazo significa que su teoría favorita es errónea y necesita volver a la mesa de dibujo. En tal caso, la inflación del error de tipo I no beneficiaría al investigador. (Por otra parte, esta interpretación va en contra de que Fisher diera este consejo, a menos que estuviera siendo pendenciero, lo que no habría estado fuera de lugar).
  4. En cualquier caso, vale la pena señalar que la razón por la que incluí ese comentario es que ilustra algo fundamental sobre la diferencia en la naturaleza de los dos enfoques.

1 votos

(Supongamos que esa cita no la dijo Fisher, lo que no afecta a su exactitud.) En respuesta a su segundo punto, AFAIK incluso si no se analizan los datos adicionales en conjunción con los datos originales, sigue siendo $p$ -hacking, y al hacerlo es más probable que se acepte incorrectamente la hipótesis alternativa porque se descartan los datos originales que apoyan la hipótesis nula. Por otro lado, esto tiene sentido al aplicar su tercer punto, ya que no seguirá realizando pruebas hasta que se rechace una hipótesis nula (por azar).

0 votos

Por cierto, sería estupendo que explicaras con más detalle "la diferencia en la naturaleza de los dos enfoques". El método de Fisher suena más... subjetivo, ya que me da la sensación de que no se preocupa realmente por la tasa de error, pero podría estar perdiéndome algo.

0 votos

Espera un segundo, ¿tu tercer punto significa que Fisher piensa $p = 0.999$ implica $H_0$ ¿debe aceptarse? Se trata, pues, de un razonamiento circular.

9voto

Cliff AB Puntos 3213

Lo que llamamos P-hacking es aplicar una prueba de significación varias veces y sólo informar de los resultados de significación. Que esto sea bueno o malo depende de la situación.

Para explicarlo, pensemos en los efectos verdaderos en términos bayesianos, en lugar de en hipótesis nulas y alternativas. Mientras creamos que nuestros efectos de interés proceden de una distribución continua, entonces conozca la hipótesis nula es falsa. Sin embargo, en el caso de una prueba de dos caras, no sabemos si es positiva o negativa. Bajo esta luz, podemos pensar en los valores p para las pruebas de dos caras como una medida de la fuerza de la evidencia de que nuestra estimación tiene la dirección correcta (es decir, efecto positivo o negativo).

Según esta interpretación, cualquier prueba de significación puede tener tres resultados posibles: vemos suficientes pruebas para concluir la dirección del efecto y estamos en lo cierto, vemos suficientes pruebas para concluir la dirección del efecto pero estamos equivocados, o no vemos suficientes pruebas para concluir la dirección del efecto. Tenga en cuenta que la condición de que disponga de pruebas suficientes (es decir, $p < \alpha$ ), la probabilidad de acertar en la dirección correcta debería ser mayor que la probabilidad de acertarla incorrectamente (a menos que se trate de una prueba realmente loca y muy mala), aunque a medida que el tamaño del efecto verdadero se acerca a cero, la probabilidad condicional de acertar en la dirección correcta dadas las pruebas suficientes se aproxima a 0,5.

Ahora, piensa en lo que ocurre cuando vuelves una y otra vez para obtener más datos. Cada vez que se obtienen más datos, la probabilidad de acertar la dirección condicionada a un número suficiente de datos aumenta. Así que, en este escenario, deberíamos darnos cuenta de que al obtener más datos, aunque de hecho estamos aumentando la probabilidad de un error de tipo I, también estamos reduciendo la probabilidad de concluir erróneamente la dirección equivocada.

Esto contrasta con el abuso más típico del P-hacking: probamos cientos de tamaños del efecto que tienen muchas probabilidades de ser muy pequeños y sólo informamos de los significativos. Tenga en cuenta que en este caso, si todos los efectos son pequeños, tenemos una probabilidad cercana al 50% de equivocarnos en la dirección cuando declaramos la significación.

Por supuesto, los p-valores producidos a partir de estos datos deben tomarse con cautela. Aunque, en general, no debería haber ningún problema con que la gente recopile más datos para estar más seguros del tamaño de un efecto, se podría abusar de ello de otras maneras. Por ejemplo, un investigador privado inteligente podría darse cuenta de que en lugar de recoger los 100 puntos de datos a la vez, podría ahorrarse un montón de dinero et aumentar la potencia recogiendo primero 50 puntos de datos, analizando los datos y recogiendo después los 50 siguientes si no son significativos. En este escenario, aumentan la probabilidad de equivocarse en la dirección del efecto condicionado a la declaración de significación, ya que es más probable que se equivoquen en la dirección del efecto con 50 puntos de datos que con 100 puntos de datos.

Y por último, considere las implicaciones de no obtener más datos cuando tenemos un resultado insignificante. Eso implicaría nunca recopilando más información sobre el tema, lo que en realidad no hará avanzar la ciencia, ¿verdad? Un estudio con poca potencia acabaría con todo un campo.

2 votos

(+1) Es un punto de vista interesante, pero ¿podría explicar con más detalle la diferencia entre la metodología de Fisher y la del IP inteligente? Parece que ambos recogen más datos porque la prueba inicial es insignificante.

0 votos

Además, no estoy seguro de lo que quiere decir con "aunque de hecho estamos aumentando la probabilidad de un error de tipo I, también estamos reduciendo la probabilidad de concluir erróneamente la dirección equivocada". ¿Cuál es la hipótesis nula en este caso? OMI si está haciendo una prueba unilateral, entonces "concluir la dirección equivocada" es "un error de tipo I", y para las pruebas bilaterales, no debería concluir la dirección.

0 votos

Corrígeme si me equivoco, pero creo que sugieres seguir recopilando más datos hasta que una prueba de dos caras sea significativa, y en este caso, la tasa de error de tipo I sería del 100%.

3voto

jgradim Puntos 1143

Si la alternativa tuviera un pequeño a priori entonces un experimento que no consiga rechazar la nula la reducirá aún más, haciendo que cualquier investigación posterior sea aún menos rentable. Por ejemplo, supongamos que la a priori probabilidad es .01. Entonces tu entropía es de 0,08 bits. Si la probabilidad se reduce a 0,001, entonces su entropía es ahora de 0,01. Por lo tanto, seguir recopilando datos no suele ser rentable. Una razón por la que sería rentable sería que saber es tan importante que incluso merece la pena reducir los 0,01 bits de entropía restantes.

Otra razón sería si el a priori probabilidad era realmente alta. Si su a priori probabilidad era superior al 50%, entonces no rechazar la nula aumenta su entropía, lo que hace más rentable seguir recopilando datos. Un ejemplo sería cuando estás casi seguro de que hay un efecto, pero no sabes en qué dirección.

Por ejemplo, si eres un agente de contrainteligencia y estás seguro de que un departamento tiene un topo, y lo has reducido a dos sospechosos, y estás haciendo algún análisis estadístico para decidir cuál de ellos, entonces un resultado estadísticamente insignificante justificaría la recogida de más datos.

0 votos

¿Por qué no rechazar el nulo disminuye su probabilidad? Aunque la ausencia de evidencia no es evidencia de ausencia, no puedo entender por qué es evidencia contra ausencia.

0 votos

@nalzok Escribí "Si la alternativa tenía una probabilidad a priori pequeña, entonces un experimento que no logra rechazar la nula la disminuirá aún más" Mientras que "nula" es el sustantivo más cercano a "ello", la nula no es una cantidad, y por lo tanto no puede disminuir y no es un antecedente válido para "ello". Además "further" indica que "it" se refiere a algo ya pequeño. Estos hechos apuntan a que el antecedente de "ello" es la "pequeña probabilidad a priori" de la alternativa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X