Lo que llamamos P-hacking es aplicar una prueba de significación varias veces y sólo informar de los resultados de significación. Que esto sea bueno o malo depende de la situación.
Para explicarlo, pensemos en los efectos verdaderos en términos bayesianos, en lugar de en hipótesis nulas y alternativas. Mientras creamos que nuestros efectos de interés proceden de una distribución continua, entonces conozca la hipótesis nula es falsa. Sin embargo, en el caso de una prueba de dos caras, no sabemos si es positiva o negativa. Bajo esta luz, podemos pensar en los valores p para las pruebas de dos caras como una medida de la fuerza de la evidencia de que nuestra estimación tiene la dirección correcta (es decir, efecto positivo o negativo).
Según esta interpretación, cualquier prueba de significación puede tener tres resultados posibles: vemos suficientes pruebas para concluir la dirección del efecto y estamos en lo cierto, vemos suficientes pruebas para concluir la dirección del efecto pero estamos equivocados, o no vemos suficientes pruebas para concluir la dirección del efecto. Tenga en cuenta que la condición de que disponga de pruebas suficientes (es decir, $p < \alpha$ ), la probabilidad de acertar en la dirección correcta debería ser mayor que la probabilidad de acertarla incorrectamente (a menos que se trate de una prueba realmente loca y muy mala), aunque a medida que el tamaño del efecto verdadero se acerca a cero, la probabilidad condicional de acertar en la dirección correcta dadas las pruebas suficientes se aproxima a 0,5.
Ahora, piensa en lo que ocurre cuando vuelves una y otra vez para obtener más datos. Cada vez que se obtienen más datos, la probabilidad de acertar la dirección condicionada a un número suficiente de datos aumenta. Así que, en este escenario, deberíamos darnos cuenta de que al obtener más datos, aunque de hecho estamos aumentando la probabilidad de un error de tipo I, también estamos reduciendo la probabilidad de concluir erróneamente la dirección equivocada.
Esto contrasta con el abuso más típico del P-hacking: probamos cientos de tamaños del efecto que tienen muchas probabilidades de ser muy pequeños y sólo informamos de los significativos. Tenga en cuenta que en este caso, si todos los efectos son pequeños, tenemos una probabilidad cercana al 50% de equivocarnos en la dirección cuando declaramos la significación.
Por supuesto, los p-valores producidos a partir de estos datos deben tomarse con cautela. Aunque, en general, no debería haber ningún problema con que la gente recopile más datos para estar más seguros del tamaño de un efecto, se podría abusar de ello de otras maneras. Por ejemplo, un investigador privado inteligente podría darse cuenta de que en lugar de recoger los 100 puntos de datos a la vez, podría ahorrarse un montón de dinero et aumentar la potencia recogiendo primero 50 puntos de datos, analizando los datos y recogiendo después los 50 siguientes si no son significativos. En este escenario, aumentan la probabilidad de equivocarse en la dirección del efecto condicionado a la declaración de significación, ya que es más probable que se equivoquen en la dirección del efecto con 50 puntos de datos que con 100 puntos de datos.
Y por último, considere las implicaciones de no obtener más datos cuando tenemos un resultado insignificante. Eso implicaría nunca recopilando más información sobre el tema, lo que en realidad no hará avanzar la ciencia, ¿verdad? Un estudio con poca potencia acabaría con todo un campo.
12 votos
Fisher (repetidamente) enfatizó la importancia de la replicación de experimentos y espero que esa fuera su intención aquí (asumiendo que la conversación tuvo lugar). Sin duda, Fisher era muy consciente de que no se puede comprobar la significación y luego ampliar la muestra inicial si no se consigue.
1 votos
@Glen_b He oído antes la expresión "replicación de experimentos", pero no la he entendido bien. ¿Me lo puedes explicar mejor? Digamos, ¿son mejores diez réplicas de un experimento cuyo tamaño muestral es 10 que un único experimento cuyo tamaño muestral es 100?
2 votos
En un estudio exploratorio, puede ser aceptable obtener más datos. En un estudio de confirmación, no es posible obtener más datos.
7 votos
Una de mis opiniones controvertidas sobre la práctica estadística es que, aunque es importante tener en cuenta la cuestión de los falsos positivos, no debemos poner la conservación de las tasas de error de tipo 1 en un pedestal tan alto que nos neguemos a aprender de los datos para conservar una tasa de error de tipo 1.