29 votos

La abundancia de valores P en ausencia de una hipótesis

Me gusta la epidemiología. No soy estadístico, pero intento realizar los análisis yo mismo, aunque a menudo encuentro dificultades. Hice mi primer análisis hace unos 2 años. Los valores P se incluyeron en todos mis análisis (simplemente hice lo que hacían otros investigadores), desde las tablas descriptivas hasta los análisis de regresión. Poco a poco, los estadísticos que trabajan en mi departamento me convencieron de que debía omitir todos (¡!) los valores p, excepto en los casos en los que realmente tenía una hipótesis.

El problema es que los valores p son abundantes en las publicaciones de investigación médica. Es convencional incluir los valores p en demasiadas líneas; los datos descriptivos de medias, medianas o lo que sea suelen ir acompañados de valores p (prueba t de los estudiantes, Chi-cuadrado, etc.).

Hace poco presenté un artículo a una revista y me negué (educadamente) a añadir valores p a mi tabla descriptiva "de referencia". El artículo fue finalmente rechazado.

Para ejemplificarlo, véase la figura siguiente; es la tabla descriptiva del último artículo publicado en una respetada revista de medicina interna: enter image description here

Los estadísticos participan en su mayoría (si no siempre) en la revisión de estos manuscritos. Así que un profano como yo espera no encontrar valores p cuando no hay hipótesis. Sin embargo, son abundantes, pero la razón de esto sigue siendo esquiva para mí. Me resulta difícil creer que sea por ignorancia.

Soy consciente de que se trata de una cuestión estadística límite. Pero estoy buscando la razón de ser de este fenómeno.

13 votos

Un valor p sin una hipótesis es intrínsecamente defectuoso. ¿Qué significa un valor p cuando no se tiene una hipótesis?

4 votos

¿Podría dar algunos ejemplos de personas que utilizan los valores p sin ninguna hipótesis? Esto no está claro.

4 votos

@amoeba ""El problema es que los valores p están en todas las revistas médicas. Es convencional incluir los valores p en cada línea donde se describen medias, medianas o proporciones."" Suelen ser simples pruebas exactas de Fisher o pruebas de chi-cuadrado para las diferencias, preguntando si alguna fila de una tabla resumen tiene una diferencia significativa. La hipótesis implícita es que cada fila es importante.

30voto

AdamSane Puntos 1825

Está claro que no hace falta que te diga qué es un valor p, ni por qué es un problema depender demasiado de ellos; por lo visto, ya entiendes bastante bien esas cosas.

Con la publicación, tienes dos presiones que compiten.

La primera -y por la que deberías presionar en cada oportunidad razonable- es hacer lo que tiene sentido.

La segunda, en última instancia, es la necesidad de publicar realmente. De poco sirve que nadie vea tus magníficos esfuerzos por reformar una práctica terrible.

Así que en lugar de evitarlo por completo:

  • hazlo con la menor cantidad de actividades sin sentido que puedas conseguir que se publique

  • tal vez incluya una mención a este reciente artículo de Nature methods [1] si crees que te servirá de ayuda, o quizás mejor una o varias de las otras referencias. Al menos debería ayudar a establecer que hay cierta oposición a la primacía de los valores p.

  • considerar otras revistas, si otra sería adecuada

¿Sucede lo mismo en otras disciplinas?

El problema del uso excesivo de los valores p se da en varias disciplinas (incluso puede ser un problema cuando hay es algunas hipótesis), pero es mucho menos común en algunas que en otras. Algunas disciplinas tienen problemas con la p-value-itis, y los problemas que causa pueden llevar eventualmente a algo reacciones exageradas [2] (y en menor medida, [1], y al menos en algunos lugares, algunos de los otros también).

Creo que hay una variedad de razones para ello, pero el exceso de confianza en los valores p parece adquirir un impulso propio - hay algo sobre decir "significativo" y rechazar un nulo que la gente parece encontrar muy atractivo; varias disciplinas (por ejemplo, véase [3][4][5][6][7][8][9][10][11]) han estado luchando (con diversos grados de éxito) contra el problema de la excesiva confianza en los valores p (especialmente $\alpha$ =0,05) durante muchos años, y han hecho muchos tipos de sugerencias, con las que no estoy de acuerdo, pero incluyo una variedad de opiniones para dar una idea de las diferentes cosas que la gente ha tenido que decir.

Algunos abogan por centrarse en los intervalos de confianza, otros en el tamaño de los efectos, otros en los métodos bayesianos, otros en los valores p más pequeños, otros en evitar el uso de los valores p de forma particular, etc. Hay muchos puntos de vista diferentes sobre lo que hay que hacer en su lugar, pero entre ellos hay mucho material sobre los problemas de confiar en los valores p, al menos de la forma en que se hace comúnmente.

Consulte esas referencias para obtener muchas otras referencias a su vez. Esto es sólo una muestra - se pueden encontrar muchas docenas de referencias más. Algunos autores exponen las razones por las que creen que los valores p son prevalentes.

Algunas de estas referencias pueden ser útiles si quiere discutir el punto con un editor.

[1] Halsey L.G., Curran-Everett D., Vowler S.L. y Drummond G.B. (2015),
"El voluble valor P genera resultados irreproducibles".
Métodos de la naturaleza 12 , 179-185 doi:10.1038/nmeth.3288
http://www.nature.com/nmeth/journal/v12/n3/abs/nmeth.3288.html

[2] David Trafimow, D. y Marks, M. (2015),
Editorial,
Psicología social básica y aplicada , 37 :1-2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080/01973533.2015.1012991

[3] Cohen, J. (1990),
Cosas que he aprendido (hasta ahora),
Psicólogo americano , 45 (12), 1304-1312.

[4] Cohen, J. (1994),
La tierra es redonda (p < .05),
Psicólogo americano , 49 (12), 997-1003.

[5] Valen E. Johnson (2013),
Normas revisadas para las pruebas estadísticas PNAS , vol. 110, no. 48, 19313-19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke J.K. (2010),
Lo que hay que creer: Métodos bayesianos para el análisis de datos,
Tendencias en ciencias cognitivas 14 (7), 293-300

[7] Ioannidis, J. (2005)
Por qué la mayoría de los resultados de las investigaciones publicadas son falsos,
PLoS Med. Agosto; 2(8): e124.
doi: 10.1371/journal.pmed.0020124

[8] Gelman, A. (2013), P Values and Statistical Practice,
Epidemiología Vol. 24 , nº 1, enero, 69-72

[9] Gelman, A. (2013),
"El problema de los valores p es cómo se utilizan",
(Discusión de "En defensa de los valores P", por Paul Murtaugh, para Ecología ) inédito
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/investigación/sin publicar/murtaugh2.pdf

[10] Nuzzo R. (2014),
Errores estadísticos: Los valores P, el "patrón oro" de la validez estadística, no son tan fiables como muchos científicos suponen,
Noticias y comentarios,
Naturaleza Vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Una solución práctica a los problemas generalizados de los valores p,
Psychonomic Bulletin & Review 14 (5), 779-804

7 votos

+1. He leído este artículo de Nature Methods [1] otra semana y no estoy seguro de que me guste mucho. Esencialmente argumentan que los valores p pueden ser muy variables en pruebas de baja potencia (ver también "dance of p-values" en youtube) - algo que por supuesto es cierto y que necesita ser enfatizado. Llegan a la conclusión de que los valores p son "malos" (el título suena bastante duro) y que la gente debería utilizar los intervalos de confianza, que son "buenos". Pero, por supuesto, ¡los intervalos de confianza también son muy variables a baja potencia! La situación en su Figura 6 (izquierda) no me parece mucho mejor que en la Figura 2.

2 votos

@amoeba No voy a decir que estoy en desacuerdo contigo - hay bastantes cosas con las que no estoy de acuerdo; sin embargo hay algunos puntos que pueden ser útiles para el OP. De hecho, me has recordado un cambio que tenía pensado hacer pero que se me olvidó.

3 votos

Sí, estoy de acuerdo con la utilidad potencial, especialmente porque Nature Methods es lo suficientemente respetable como para que la gente pueda ser convencida por su "autoridad". Sólo quería advertir a la OP de que no diera por sentado todo lo que allí se dice (sus matemáticas están bien, estoy hablando de conclusiones/interpretaciones).

10voto

JavaAndCSharp Puntos 1227

El valor p, o más generalmente, la prueba de significación de hipótesis nula (NHST), tiene cada vez menos valor. Tanto es así que ha empezado a ser expulsado en las revistas.

La mayoría de la gente no entiende qué nos dice realmente el valor p y por qué nos lo dice, aunque se utiliza en todas partes.

El problema es que el valor p nos dice $P(\text{Data}\,\vert\, H_0)$ y no $P(H_0\,\vert\,\text{Data})$ que es la más informativa. Esta última implica el uso de la inferencia bayesiana y proporciona una base más sólida para las conclusiones de la comprobación de modelos.

La probabilidad del $H_0$ que el modelo sea verdadero/significativo, dados los datos que hemos observado, tiene implicaciones más fuertes que la probabilidad de que nuestros datos se ajusten al $H_0$ modelo.

2 votos

Yo añadiría que P(H0|datos) sólo tiene sentido si H0 tiene sentido. Los estudios tienen que estar diseñados y comunicados de forma que se descarten otras explicaciones poco interesantes para los resultados (sesgo, abandonos, diferencias de base) más allá del azar. Además, incluso un ECA ciego perfecto con un tamaño del efecto considerable sólo indica que algo interesante fue medido. Averiguar si se midió lo que realmente interesa es otra cuestión que se pasa por alto a menudo junto con la obsesión del valor p.

8voto

Kevin Zink Puntos 81

¿Sucede lo mismo en otras disciplinas? ¿A qué se debe la obsesión por los valores p?

Greenwald et al. (1996) intentan abordar esta cuestión en relación con la psicología. En cuanto a la aplicación del NHST también a las diferencias de base, es de suponer que los editores decidirán (con razón o sin ella) que las diferencias de base "no significativas" no pueden explicar los resultados, mientras que las "significativas" sí pueden hacerlo. Esto es similar a la "Razón 1" ofrecida por Greenwald et al. :

¿Por qué sigue siendo popular la NHT?

"¿Por qué NHT no sucumbe a las críticas? A falta de una respuesta mejor, es tentador es tentador atribuir la persistencia de la NHT a la falta de carácter de los científicos del comportamiento. de los científicos del comportamiento. La falta de voluntad de los científicos del comportamiento para renunciar el placer culpable de obtener rechazos de hipótesis nulas posiblemente espurios de obtener rechazos de hipótesis nulas posiblemente espurios puede ser como la falta de voluntad de un bebedor de renunciar al hábito de un cóctel antes de la cena..."

Razón I: La TH ofrece un resultado dicotómico

"Debido a la adopción generalizada de la convención de que p < .05 se traduce en "estadísticamente significativo", la NHT puede utilizarse para respuesta dicotómica (rechazar o no rechazar) a una pregunta sobre una hipótesis nula. Esto puede considerarse a menudo como una respuesta útil para preguntas teóricas que se plantean en términos de una dirección de predicción en lugar de en términos del valor esperado de un parámetro..."

Razón 2: El valor p como traducción significativa del lenguaje común para las estadísticas de las pruebas

"A diferencia de lo que se puede percibir tan directamente de los valores t, F o r (con su df asociado), la medida de sorpresa de un valor p es simplemente por el número de ceros consecutivos a la derecha de su punto decimal..."

Razón 3: El valor p proporciona una medida de confianza" en la replicabilidad de los rechazos de la hipótesis nula

"A diferencia de un tamaño del efecto (o un intervalo de confianza), un valor p resultante de la NHT está relacionado monotónicamente con una estimación de un hallazgo no nulo de la replicabilidad de un hallazgo no nulo. En esta afirmación, la replicabilidad (que se se define más formalmente a continuación) se entiende sólo en su sentido NHT de repetir la conclusión de rechazo-no rechazo y no en su sentido de estimación sentido de proximidad entre estimaciones puntuales o de intervalo".

Tamaños del efecto y valores p: ¿Qué se debe informar y qué se debe replicar? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS Y DONALD GUTHRIE. Psicofisiología, 33 (1996). 175-183. Cambridge University Press. Impreso en los Estados Unidos. Copyright O 1996 Sociedad para la Investigación Psicofisiológica

0 votos

Gracias por estos importantes comentarios, que sin duda utilizaré para discutir con los revisores la próxima vez.

6voto

MrMeritology Puntos 1013

Los valores P ofrecen información sobre las diferencias entre dos grupos de resultados ("tratamiento" frente a "control", "A" frente a "B", etc.) que se obtienen de dos poblaciones. La naturaleza de la diferencia se formaliza en el enunciado de la hipótesis, por ejemplo, "la media de A es mayor que la media de B". Los valores p bajos sugieren que las diferencias no se deben a la variación aleatoria, mientras que los valores p altos sugieren que las diferencias en las dos muestras no pueden distinguirse de las diferencias que podrían surgir simplemente de la variación aleatoria. Lo que es "bajo" o "alto" para un valor p ha sido históricamente una cuestión de convención y de gusto más que establecido por una lógica rigurosa o un análisis de pruebas.

Un requisito previo para utilizar los valores p es que los dos grupos de resultados sean realmente comparables, es decir, que la única fuente de diferencia entre ellos esté relacionada con la variable que se está evaluando. Como ejemplo exagerado, imagine que tiene estadísticas sobre dos enfermedades en dos periodos de tiempo: A: mortalidad por cólera entre los hombres de las cárceles británicas de 1920 a 1930, y B: infección por malaria en Nigeria de 1960 a 1970. Calcular un valor p a partir de estos dos conjuntos de datos sería bastante absurdo. Ahora bien, si A: mortalidad por cólera entre los hombres de las cárceles británicas que no reciben tratamiento frente a B: mortalidad por cólera entre los hombres de las cárceles británicas que reciben tratamiento de rehidratación, entonces se tiene la base de una hipótesis estadística sólida.

En la mayoría de los casos, esto se consigue mediante un cuidadoso diseño de experimentos, o un cuidadoso diseño de encuestas, o una cuidadosa recopilación de datos históricos, etc. Además, las diferencias entre los dos resultados deben formalizarse en declaraciones de hipótesis que impliquen estadísticas muestrales, a menudo medias muestrales, pero también podrían ser varianzas muestrales u otras estadísticas muestrales. También es posible crear declaraciones de hipótesis que comparen las dos distribuciones muestrales en su conjunto, utilizando la dominancia estocástica. Esto es poco frecuente.

La controversia sobre los valores p se centra en "¿qué es realmente significativo" para la investigación? Aquí es donde entran en juego los tamaños del efecto. Básicamente, el tamaño del efecto es la magnitud de la diferencia entre los dos grupos. Es posible tener una alta significación estadística (valor p bajo -> no debido a la variación aleatoria) pero también un tamaño del efecto bajo (muy poca diferencia de magnitud). Cuando los tamaños del efecto son muy grandes, entonces permitir valores p algo altos puede estar bien.

La mayoría de las disciplinas se inclinan ahora por informar de los tamaños de los efectos y reducir o minimizar el papel de los valores p. También fomentan más estadísticas descriptivas sobre las distribuciones de la muestra. Algunos enfoques, como la estadística bayesiana, prescinden por completo de los valores p.


Mi respuesta está condensada y simplificada. Hay muchos artículos sobre este tema que puede consultar para obtener más detalles, justificaciones y detalles, incluidos estos:

0 votos

@MerMeritology gracias por aportar estas importantes referencias. ¡Las leeré cuanto antes!

6voto

Jeff Bauer Puntos 236

"Así que un profano como yo espera no encontrar valores p donde no hay hipótesis".

Implícitamente, el OP dice que en la Tabla específica que presenta, no hay hipótesis que acompañen a los valores p reportados. Para aclarar esta pequeña confusión, ciertamente hay hipótesis nulas, pero se mencionan más bien... indirectamente (por economía de espacio, supongo).

El "valor p" es una probabilidad condicional, por ejemplo, para una prueba de "cola derecha",

$$\text{p-val} \equiv P(T\geq t(S) \mid H_0) = 1-F_{T|H_0}(t(S) \mid H_0)$$

donde $T$ es la estadística utilizada, $F_{T|H_0}(t \mid H_0)$ es la función de distribución acumulativa que caracteriza las probabilidades relacionadas con $T$ con la condición de $H_0$ siendo cierto, y $t(S)$ es el valor de $T$ obtenido por el uso de la muestra en cuestión. Obviamente, para que la prueba sea significativa, debe darse el caso de que el estadístico $T$ es tal y la hipótesis nula $H_0$ es tal que la distribución de $T$ con la condición de $H_0$ siendo verdadera, es diferente (o está parametrizada de forma diferente, cuando ambas pertenecen a la misma familia) de su distribución condicionada a $H_0$ que no es cierto.

Así que ni siquiera se puede calcular un valor p si no hay una hipótesis nula y siempre que veamos un valor p reportado, en algún lugar se esconde una hipótesis nula.

En la tabla presentada en la pregunta se lee

"Todas las pruebas de diferencias entre los tertiles de WHR..."

La hipótesis nula se "esconde" en esta frase: es "No hay diferencia entre los tertiles de WHR", (sea lo que sea un "tertil de WΗR") expresada en su forma matemática, que aquí parece ser una diferencia de dos magnitudes que se establece igual a cero.

0 votos

Estoy de acuerdo en que podría haber hipótesis detrás de estos análisis. Sin embargo, quienes elaboran las directrices para los trabajos de investigación (por ejemplo, la declaración STROBE) deberían abordar la abundancia de valores p. Creo que un valor p debería reservarse para la hipótesis principal de un artículo (que rara vez es más de una). Sin embargo, no puedo decir que esté en desacuerdo contigo =)

1 votos

@AdamRobinsson Hmmm... No estoy tan seguro. Un enfoque tan "reservado", inflaría (aún más) la importancia que realmente tiene una prueba de valor p para llegar a una conclusión. Para mí, es sólo un resultado más que debe combinarse con muchos otros aspectos, resultados, información fuera de la muestra, lógica, etc. Por otro lado, si los valores p están dispersos por todas partes, es más fácil darse cuenta de que no son el criterio definitivo para llegar a conclusiones.

0 votos

Alecos he leído algo diferente en la tabla, que se refiere a los terciles de WHR (es decir, la relación cintura-cadera) en lugar de WRT, mientras que tertiles son valores que dividen una distribución en 3 partes en el mismo sentido que los cuartiles son valores que dividen en 4 partes y los deciles son a diez partes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X