La frase p-hacking (también: "los datos de dragado", "espionaje" o "pesca") se refiere a varios tipos de estadística de la negligencia en la que los resultados se hacen artificialmente estadísticamente significativa. Hay muchas maneras de conseguir una "más significativo" del resultado, incluyendo pero no limitado a:
- sólo el análisis de una "interesante" subconjunto de los datos, en el que un patrón fue encontrado;
- no ajustar correctamente para pruebas múltiples, especialmente post-hoc de las pruebas y de no informar de las pruebas realizadas que no fueron significativas;
- tratando de pruebas diferentes de la misma hipótesis, por ejemplo, tanto un paramétrica y no paramétrica de la prueba (hay algunos comentarios de que en este hilo), pero sólo la presentación de informes más significativos;
- experimentando con la inclusión/exclusión de puntos de datos, hasta que se obtenga el resultado deseado. Una oportunidad llega cuando "datos-limpieza de los valores atípicos", pero también cuando se aplica una ambigua definición (por ejemplo, en un estudio econométrico de los "países desarrollados", las diferentes definiciones de rendimiento diferentes grupos de países), o cualitativos, los criterios de inclusión (por ejemplo, en un meta-análisis, puede ser un delicado equilibrio discusión de si una determinada metodología del estudio es suficiente robusta para incluir);
- el ejemplo anterior está relacionado con el opcional de frenado, es decir, el análisis de un conjunto de datos y decidir si para recopilar más datos o no en función de los datos recogidos hasta el momento ("esto es casi significativo, vamos a medir más de tres estudiantes!") sin la contabilidad en el análisis;
- la experimentación durante modelo de ajuste, en particular las covariables para incluir, sino también en lo referente a las transformaciones de datos/forma funcional.
Así que sabemos que p-hacking se puede hacer. Es a menudo considerado como uno de los "peligros de la p-valor" , que se menciona en el ASA informe sobre la significación estadística, comentado aquí en la Cruz Validado, por lo que también sabemos es una Mala Cosa. Aunque algunas dudosas motivaciones y, más particularmente, en el concurso para la publicación académica) contraproducentes incentivos son evidentes, sospecho que es difícil saber muy por qué se hace, ya sea en forma deliberada negligencia o simple desconocimiento. Alguien de informes de los p-valores a partir de una regresión paso a paso (porque se les paso a paso los procedimientos de "producir buenos modelos", pero no son conscientes de la supuesta p-valores son invalidadas) es en este último campo, pero el efecto es todavía p-hacking en el último de mis puntos de viñeta anterior.
Ciertamente, hay evidencia de que p-hacking está "ahí fuera", por ejemplo, Head et al (2015) busca los signos reveladores de que infectan la literatura científica, pero ¿cuál es el estado actual de nuestra base de evidencia al respecto? Soy consciente de que el enfoque adoptado por la Cabeza et al no estuvo exenta de polémica, por lo que el estado actual de la literatura, o de la creencia general en la comunidad académica, sería interesante. Por ejemplo, ¿tenemos alguna idea acerca de:
- Cuán frecuente es, y en qué medida se puede diferenciar su aparición del sesgo de publicación? (Es esta distinción incluso significante?)
- Es el efecto particularmente aguda en el $p \approx 0.05$ límite? Son similares a los efectos observados en $p \approx 0.01$, por ejemplo, o hemos de ver todo rangos de p-valores afectados?
- Hacer patrones en p-hacking variar entre los ámbitos académicos?
- ¿Tenemos alguna idea de cuál de los mecanismos de p-hacking (algunos de los cuales son enumerados en los puntos anteriores) son los más comunes? Tienen algunas formas probadas más difícil de detectar que otros porque son "mejor disfrazado"?
Referencias
Cabeza, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). La magnitud y las consecuencias de la p-hacking en la ciencia. PLoS Biol, 13(3), e1002106.