32 votos

¿El valor exacto de un "valor p" no tiene sentido?

Tuve una discusión con un estadístico en 2009 en la que afirmaba que el valor exacto de un valor p es irrelevante: lo único que importa es si es significativo o no. Es decir, un resultado no puede ser más significativo que otro; sus muestras, por ejemplo, provienen de la misma población o no.

Tengo algunos reparos con esto, pero quizás pueda entender la ideología:

  1. El umbral del 5% es arbitrario, es decir, que p = 0,051 no sea significativo y que p = 0,049 sí lo sea, no debería cambiar realmente la conclusión de su observación o experimento, a pesar de que un resultado sea significativo y el otro no.

    La razón por la que saco esto a colación es que estoy estudiando un máster en Bioinformática y, tras hablar con gente del sector, parece que hay un empeño decidido en obtener un valor p exacto para cada conjunto de estadísticas que hacen. Por ejemplo, si "consiguen" un valor p de p < 1,9×10 -12 quieren demostrar lo significativo que es su resultado, y que este resultado es SUPERinformativo. Esta cuestión se ejemplifica con preguntas como: ¿Por qué no puedo obtener un valor p inferior a 2,2e-16? , por lo que quieren registrar un valor que indique que sólo por azar esto sería MUCHO menos que 1 entre un trillón. Pero veo poca diferencia en demostrar que este resultado se produciría menos de 1 entre un trillón frente a 1 entre mil millones.

  2. Puedo apreciar entonces que p < 0,01 muestra que hay menos de un 1% de probabilidades de que esto ocurra, mientras que p < 0,001 indica que un resultado como éste es aún más improbable que el valor p mencionado, pero ¿deberían sus conclusiones ser completamente diferentes? Al fin y al cabo, ambos son valores p significativos. La única forma que puedo concebir de querer registrar el valor p exacto es durante una corrección de Bonferroni por la que el umbral cambia debido al número de comparaciones realizadas, disminuyendo así el error de tipo I. Pero aún así, ¿por qué querría mostrar un valor p que es 12 órdenes de magnitud más pequeño que su umbral de significación?

  3. ¿Y la aplicación de la corrección de Bonferroni no es en sí misma ligeramente arbitraria? En el sentido de que, inicialmente, la corrección se considera muy conservadora y, por tanto, hay otras correcciones que se pueden elegir para acceder al nivel de significación que el observador podría utilizar para sus comparaciones múltiples. Pero debido a esto, el punto en el que algo se convierte en significativo no es esencialmente variable dependiendo de la estadística que el investigador quiera utilizar. ¿Deben las estadísticas estar tan abiertas a la interpretación?

En conclusión, la estadística no debería ser menos subjetiva (aunque supongo que la necesidad de que sea subjetiva es como consecuencia de un sistema multivariante), pero en definitiva quiero alguna aclaración: ¿puede ser algo más significativo que otra cosa? ¿Y será suficiente p < 0,001 respecto a intentar registrar el valor p exacto?

25voto

Nick Stauner Puntos 8220
  1. La tasa de error de tipo 1 / falso rechazo $\alpha=.05$ no es completamente arbitrario, pero sí, está cerca. Es algo preferible a $\alpha=.051$ porque es menos complejo cognitivamente ( a la gente le gustan los números redondos y los múltiplos de cinco ). Es un compromiso decente entre el escepticismo y la practicidad, aunque tal vez un poco anticuado - los métodos modernos y los recursos de investigación pueden hacer que los estándares sean más altos (es decir, más bajos $p$ valores) preferibles, si las normas deben ser ( Johnson, 2013 ) .

    En mi opinión, el mayor problema que la elección del umbral es la opción, a menudo no examinada, de utilizar un umbral cuando no es necesario o útil. En situaciones en las que hay que hacer una elección práctica, puedo ver el valor, pero gran parte de la investigación básica no necesita la decisión de descartar las pruebas propias y renunciar a la perspectiva de rechazar la nulidad sólo porque las pruebas de una muestra determinada en contra de ella no alcanzan casi ningún umbral razonable. Sin embargo, muchos de los autores de esta investigación se sienten obligados a hacerlo por convención, y se resisten a ello incómodamente, inventando términos como significación "marginal" para pedir atención cuando pueden sentir que se les escapa porque a su público a menudo no le importa $p$ s $\ge.05$ . Si miras otras preguntas aquí en $p$ interpretación del valor, verás muchas disensiones sobre la interpretación de $p$ valores por binario fail to / reject decisiones relativas a la nulidad.

  2. Completamente diferente - no. Significativamente diferente, tal vez. Una razón para mostrar una ridícula $p$ es implicar información sobre el tamaño del efecto. Por supuesto, informar simplemente del tamaño del efecto sería mucho mejor por varias razones técnicas, pero los autores a menudo no consideran esta alternativa, y el público también puede estar menos familiarizado con ella, por desgracia. En un mundo nulo e hipotético en el que nadie sabe cómo informar sobre el tamaño del efecto, es posible que se acierte la mayoría de las veces al suponer que un $p$ significa un efecto mayor. En la medida en que este mundo nulo e hipotético se acerque más a la realidad que lo contrario, quizá tenga algún valor informar con exactitud $p$ s por esta razón. Por favor, comprenda que este punto es pura abogacía del diablo...

    Otro uso para la exactitud $p$ s que he aprendido al participar en un debate muy similar aquí es como índices de funciones de probabilidad. Véanse los comentarios de Michael Lew sobre y el artículo ( Lew, 2013 ) vinculado en mi respuesta a " Acomodar las opiniones arraigadas sobre los valores p ".

  3. No creo que la corrección de Bonferroni sea realmente el mismo tipo de arbitrariedad. Corrige el umbral que creo que estamos de acuerdo en que es al menos casi completamente arbitrario, así que no pierde nada de esa arbitrariedad fundamental, pero no creo que añada nada arbitrario a la ecuación. La corrección es definido de forma lógica y pragmática, y las pequeñas variaciones hacia correcciones mayores o menores parecerían requerir argumentos bastante sofisticados para justificarlas como algo más que arbitrarias, mientras que creo que sería más fácil argumentar a favor de un ajuste de $\alpha$ sin tener que superar ninguna lógica profundamente atractiva y a la vez simple en ella.

    En todo caso, creo que $p$ valores debe ¡ser más abiertos a la interpretación! Es decir, que el hecho de que la hipótesis nula sea realmente más útil que la alternativa debería depender de algo más que de las pruebas en su contra, incluyendo el coste de obtener más información y el valor incremental añadido de un conocimiento más preciso así obtenido. Esta es esencialmente la idea sin umbral de Fisher que, AFAIK, es como todo comenzó. Ver " En cuanto a los valores p, ¿por qué el 1% y el 5%? ¿Por qué no el 6% o el 10%? "

Si fail to / reject Si las crisis no se imponen a la hipótesis nula desde el principio, entonces la comprensión más continua de la significación estadística admite ciertamente la posibilidad de un aumento continuo de la significación. En el enfoque dicotómico de la significación estadística (creo que a veces se denomina marco Neyman-Pearson; Véase. Dienes, 2007 ), no, cualquier resultado significativo es tan importante como el siguiente, ni más ni menos. Esta pregunta puede ayudar a explicar ese principio: " ¿Por qué los valores p se distribuyen uniformemente bajo la hipótesis nula? " En cuanto a cuántos ceros son significativos y merecen ser informados, recomiendo la respuesta de Glen_b a esta pregunta: " ¿Cómo deberían los pequeños $p$ -¿se informará de los valores? (¿y por qué R pone un mínimo en 2,22e-16?) " - ¡es mucho mejor que las respuestas a la versión de esa pregunta que enlazaste en Stack Overflow!

Referencias
- Johnson, V. E. (2013). Normas revisadas para las pruebas estadísticas. Actas de la Academia Nacional de Ciencias, 110 (48), 19313-19317. Extraído de http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, M. J. (2013). To P or not to P: On the evidential nature of P-values and their place in scientific inference. arXiv:1311.0081 [stat.ME]. Recuperado de http://arxiv.org/abs/1311.0081 .

13voto

Zizzencs Puntos 1358

Me parece que, si un valor es significativo, su valor exacto es significativo.

El valor p responde a esta pregunta:

Si, en la población de la que se extrajo esta muestra al azar, el hipótesis nula fuera cierta, ¿cuál es la probabilidad de obtener un estadística de prueba al menos tan extrema como la que obtuvimos en la muestra?

¿Qué hay en esta definición que hace que un valor exacto no tenga sentido?

Esta es una pregunta diferente de las que se refieren a los valores extremos de p. El problema con las afirmaciones que implican p con muchos 0's son sobre lo bien que podemos estimar p en los extremos. Como no podemos hacerlo muy bien, no tiene sentido utilizar estimaciones tan precisas de p. Esta es la misma razón por la que no decimos que p = 0,0319281010012981 . No conocemos esos últimos dígitos con ninguna confianza.

¿Deberían ser diferentes nuestras conclusiones si p < 0,001 en lugar de p < 0,05? O, para usar números precisos, ¿deberían ser diferentes nuestras conclusiones si p = 0,00023 en lugar de p = 0,035?

Creo que el problema radica en la forma en que solemos concluir cosas sobre p. Decimos "significativo" o "no significativo" basándonos en algún nivel arbitrario. Si utilizamos estos niveles arbitrarios, entonces, sí, nuestras conclusiones serán diferentes. Pero no es así como deberíamos pensar en estas cosas. Deberíamos fijarnos en el peso de la evidencia y las pruebas estadísticas sólo son parte de esas pruebas. Voy a poner (una vez más) los "criterios mágicos" de Robert Abelson:

Magnitud: ¿cómo de grande es el efecto?

Articulación: ¿cuál es la precisión de su enunciado? ¿Hay muchas excepciones?

Generalidad: ¿a qué grupo se aplica?

Interés: ¿le importará a la gente?

Credibilidad: ¿tiene sentido?

Lo importante es la combinación de todos ellos. Obsérvese que Abelson no menciona en absoluto los valores p, aunque entran como una especie de híbrido de magnitud y articulación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X