13 votos

¿Ejemplos de estudios que usan valores p < 0,001, p < 0,0001 o incluso menores?

Vengo de las ciencias sociales, donde p < 0,05 es más o menos la norma, con p < 0,1 y p < 0,01 también apareciendo, pero me preguntaba: ¿qué campos de estudio, si los hay, utilizan valores p inferiores como norma común?

9voto

DavLink Puntos 101

Mi opinión es que no depende (ni debe depender) del ámbito de estudio. Por ejemplo, es muy posible que se trabaje con un nivel de significación menor que $p<0.001$ si, por ejemplo, se trata de replicar un estudio con resultados históricos o bien establecidos (se me ocurren varios estudios sobre la Efecto Stroop que ha suscitado algunas polémicas en los últimos años). Eso equivale a considerar un "umbral" más bajo dentro del marco clásico de Neyman-Pearson para la comprobación de hipótesis. Sin embargo, la significación estadística y práctica (o sustantiva) es otra cuestión.

Sidenote . El "sistema estelar" parece haber dominado las investigaciones científicas ya en los años 70, pero véase La Tierra es redonda (p < .05), de J. Cohen ( Psicólogo americano , 1994, 49(12), 997-1003), a pesar de que lo que a menudo queremos saber es, dados los datos que he observado, cuál es la probabilidad de que $H_0$ ¿es cierto? De todos modos, también hay una buena discusión sobre " ¿Por qué P=0,05? ", por Jerry Dallal.

0 votos

Por favor, corrija mi línea de pensamiento: algunos campos pueden centrarse en, por ejemplo, la exposición bioquímica, y por lo tanto quieren utilizar p < 0,001 para evitar cualquier error de tipo I que pueda conducir a un peligro para la salud. Además, a lo largo de este artículo de Am Psych También recuerdo un gran estudio en el Am J of Sociol o una de las revistas de ciencias sociales que sigo. Mi favorita es, por supuesto, Ziliak y McCloskey .

1 votos

Lo que describes aquí suena al revés. Me preocuparían los errores de tipo II, decir que algo no está ahí cuando sí lo está, con la exposición bioquímica. En ese caso, yo podría establecer alfa más alto, no más bajo.

0 votos

Estaba trabajando bajo la suposición de que la prueba sería de la forma "Evaluemos si el embarazo está relacionado con la TRH" (en ese caso, un error de tipo I es más grave que un error de tipo II, pero quizás este diseño no sea estándar).

8voto

Auron Puntos 2123

Puede ser raro que alguien utilice un nivel de alfa preestablecido inferior a, por ejemplo, 0,01, pero no es tan raro que la gente reclame un alfa implícito inferior a 0,01 en la creencia errónea de que un valor P observado inferior a 0,01 es lo mismo que un alfa de Neyman-Pearson inferior a 0,01.

Los valores P de Fisher no son iguales ni intercambiables con las tasas de error de Neyman-Pearson. $P = 0.0023$ no significa $\alpha = 0.0023$ a menos que uno haya decidido utilizar $0.0023$ como el nivel crítico de significación cuando se diseña el experimento. Si se hubiera tomado $P = 0.05$ como significativo entonces $P = 0.0023$ significa que hay un $0.05$ probabilidad de un falso positivo.

Echa un vistazo a Hubbard et al. Confusión sobre las medidas de evidencia (p's) frente a los errores (α's) en las pruebas estadísticas clásicas. The American Statistician (2003) vol. 57 (3)

0 votos

Comprendo la distinción, aunque probablemente yo cometa el error de forma rutinaria. Pero mi pregunta es, ¿hay algún uso convencional, en algún lugar por ahí, de p < .0001 por ejemplo? O, por decirlo de forma provocativa, ¿es universal el culto p < .05?

0 votos

El "culto" de P<0,05 puede ser casi universal, pero no es posible confiar en ninguna afirmación sobre este punto porque es muy probable que las aparentes excepciones sean el resultado de la hibridación sin conocimiento de los métodos de Fisher y Neyman-Pearson. En los documentos de investigación farmacológica básica casi nunca hay una declaración explícita sobre el uso de los índices de error de Neyman-Pearson.

0 votos

Gracias por el ejemplo. Cada vez me impresiona menos la investigación farmacológica, por muchas razones (no todas científicas)

5voto

Jared Farrish Puntos 120

No estoy muy familiarizado con esta literatura, pero creo que algunos físicos utilizan umbrales mucho más bajos en las pruebas estadísticas. Sin embargo, hablan de ello de forma un poco diferente, por lo que los científicos sociales podrían no darse cuenta de la conexión.

Por ejemplo, si una medida se aleja tres desviaciones estándar de la predicción teórica, se describe como una desviación "tres sigma". Básicamente, esto significa que el parámetro de interés es estadísticamente diferente del valor predicho en una prueba z con $α = .01$ . Dos sigmas equivalen aproximadamente a $α = .05$ (de hecho sería 1,96 σ). Si no me equivoco, el nivel de error estándar en física es de 5 sigma, que sería $α = 5*10^-7$ o $p < 0.0000005$ .

Además, en neurociencia o epidemiología, parece cada vez más habitual realizar de forma rutinaria alguna corrección por comparaciones múltiples. Por tanto, el nivel de error de cada prueba individual puede ser inferior a $p < .01$ .

2 votos

La epidemiología genética utiliza habitualmente $\alpha=5\times10^{-8}$ en los estudios de asociación del genoma completo, a menudo con independencia del número exacto de pruebas realizadas.

1voto

pgras Puntos 7202

Como ha señalado Gaël Laurans anteriormente, los análisis estadísticos que se enfrentan al problema de las comparaciones múltiples suelen utilizar umbrales más conservadores. Sin embargo, en esencia están utilizando 0,05, pero multiplicado por el número de pruebas. Es obvio que este procedimiento (corrección de Bonferroni) puede conducir rápidamente a valores p increíblemente pequeños. Por eso la gente en el pasado (en neurociencia) se detenía en p<0,001. Hoy en día se utilizan otros métodos de corrección de comparaciones múltiples (véase la teoría del campo aleatorio de Markov).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X