100 votos

¿Cuánto sabemos sobre p-hacking "en la naturaleza"?

La frase p-hacking (también: "los datos de dragado", "espionaje" o "pesca") se refiere a varios tipos de estadística de la negligencia en la que los resultados se hacen artificialmente estadísticamente significativa. Hay muchas maneras de conseguir una "más significativo" del resultado, incluyendo pero no limitado a:

  • sólo el análisis de una "interesante" subconjunto de los datos, en el que un patrón fue encontrado;
  • no ajustar correctamente para pruebas múltiples, especialmente post-hoc de las pruebas y de no informar de las pruebas realizadas que no fueron significativas;
  • tratando de pruebas diferentes de la misma hipótesis, por ejemplo, tanto un paramétrica y no paramétrica de la prueba (hay algunos comentarios de que en este hilo), pero sólo la presentación de informes más significativos;
  • experimentando con la inclusión/exclusión de puntos de datos, hasta que se obtenga el resultado deseado. Una oportunidad llega cuando "datos-limpieza de los valores atípicos", pero también cuando se aplica una ambigua definición (por ejemplo, en un estudio econométrico de los "países desarrollados", las diferentes definiciones de rendimiento diferentes grupos de países), o cualitativos, los criterios de inclusión (por ejemplo, en un meta-análisis, puede ser un delicado equilibrio discusión de si una determinada metodología del estudio es suficiente robusta para incluir);
  • el ejemplo anterior está relacionado con el opcional de frenado, es decir, el análisis de un conjunto de datos y decidir si para recopilar más datos o no en función de los datos recogidos hasta el momento ("esto es casi significativo, vamos a medir más de tres estudiantes!") sin la contabilidad en el análisis;
  • la experimentación durante modelo de ajuste, en particular las covariables para incluir, sino también en lo referente a las transformaciones de datos/forma funcional.

Así que sabemos que p-hacking se puede hacer. Es a menudo considerado como uno de los "peligros de la p-valor" , que se menciona en el ASA informe sobre la significación estadística, comentado aquí en la Cruz Validado, por lo que también sabemos es una Mala Cosa. Aunque algunas dudosas motivaciones y, más particularmente, en el concurso para la publicación académica) contraproducentes incentivos son evidentes, sospecho que es difícil saber muy por qué se hace, ya sea en forma deliberada negligencia o simple desconocimiento. Alguien de informes de los p-valores a partir de una regresión paso a paso (porque se les paso a paso los procedimientos de "producir buenos modelos", pero no son conscientes de la supuesta p-valores son invalidadas) es en este último campo, pero el efecto es todavía p-hacking en el último de mis puntos de viñeta anterior.

Ciertamente, hay evidencia de que p-hacking está "ahí fuera", por ejemplo, Head et al (2015) busca los signos reveladores de que infectan la literatura científica, pero ¿cuál es el estado actual de nuestra base de evidencia al respecto? Soy consciente de que el enfoque adoptado por la Cabeza et al no estuvo exenta de polémica, por lo que el estado actual de la literatura, o de la creencia general en la comunidad académica, sería interesante. Por ejemplo, ¿tenemos alguna idea acerca de:

  • Cuán frecuente es, y en qué medida se puede diferenciar su aparición del sesgo de publicación? (Es esta distinción incluso significante?)
  • Es el efecto particularmente aguda en el $p \approx 0.05$ límite? Son similares a los efectos observados en $p \approx 0.01$, por ejemplo, o hemos de ver todo rangos de p-valores afectados?
  • Hacer patrones en p-hacking variar entre los ámbitos académicos?
  • ¿Tenemos alguna idea de cuál de los mecanismos de p-hacking (algunos de los cuales son enumerados en los puntos anteriores) son los más comunes? Tienen algunas formas probadas más difícil de detectar que otros porque son "mejor disfrazado"?

Referencias

Cabeza, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). La magnitud y las consecuencias de la p-hacking en la ciencia. PLoS Biol, 13(3), e1002106.

24voto

alexs77 Puntos 36

Embudo de parcelas han sido una tremenda estadística de la innovación que se convirtió meta análisis sobre su cabeza. Básicamente, un gráfico de embudo muestra la clínica y la significación estadística en la misma parcela. Lo ideal es que se forma una forma de embudo. Sin embargo, varios meta-análisis han producido embudo de los gráficos que muestran una fuerte bimodal de la forma, donde los investigadores (o editores) de forma selectiva retenido resultados fueron nulos. El resultado es que el triángulo se vuelve más amplio, debido a un menor, menos powered estudios utilizan más métodos drásticos para "alentar" a los resultados a alcanzar significación estadística. El Informe Cochrane equipo tiene esto que decir acerca de ellos.

Si hay sesgo, por ejemplo debido a un menor de estudios sin efectos estadísticamente significativos (que se muestran como círculos abiertos en la Figura 10.4.una, Panel a) permanecen inéditos, esto conducirá a un aspecto asimétrico del gráfico de embudo con un hueco en una esquina inferior de la gráfica (Panel B). En esta situación el efecto calculado en un meta-análisis tienden a sobreestimar el efecto de la intervención (Egger 1997a, Villar 1997). La más pronunciada la asimetría, la más probable es que la cantidad de sesgo será sustancial.

La primera gráfica muestra una simétrica de la parcela en la ausencia de sesgo. El segundo muestra un asimétrica de la parcela en la presencia de sesgo de reporte. La tercera muestra un asimétrica de la parcela en la presencia de sesgo debido a que algunos estudios más pequeños (círculos abiertos) son de menor calidad metodológica y con ello la producción exagerada de intervención estimaciones del efecto.

enter image description here

enter image description here

enter image description here

Sospecho que la mayoría de los autores son conscientes de los métodos que utilizan para p-hack. No mantener un seguimiento del número total de modelos de ajuste, la aplicación de diferentes criterios de exclusión o de optar por diferentes de ajuste de las variables de cada momento. Sin embargo, si yo tuviera un mandato para un proceso simple, me encantaría ver el número total de modelos de ajuste. Eso no quiere decir que puede haber razones legítimas para ejecutar los modelos, por ejemplo, se acaba de ejecutar a través de una enfermedad de Alzheimer análisis no saber ApoE habían sido recogidos en la muestra. Huevo en mi cara, volvimos a correr los modelos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X