Tuve una discusión con un estadístico en 2009 en la que afirmaba que el valor exacto de un valor p es irrelevante: lo único que importa es si es significativo o no. Es decir, un resultado no puede ser más significativo que otro; sus muestras, por ejemplo, provienen de la misma población o no.
Tengo algunos reparos con esto, pero quizás pueda entender la ideología:
-
El umbral del 5% es arbitrario, es decir, que p = 0,051 no sea significativo y que p = 0,049 sí lo sea, no debería cambiar realmente la conclusión de su observación o experimento, a pesar de que un resultado sea significativo y el otro no.
La razón por la que saco esto a colación es que estoy estudiando un máster en Bioinformática y, tras hablar con gente del sector, parece que hay un empeño decidido en obtener un valor p exacto para cada conjunto de estadísticas que hacen. Por ejemplo, si "consiguen" un valor p de p < 1,9×10 -12 quieren demostrar lo significativo que es su resultado, y que este resultado es SUPERinformativo. Esta cuestión se ejemplifica con preguntas como: ¿Por qué no puedo obtener un valor p inferior a 2,2e-16? , por lo que quieren registrar un valor que indique que sólo por azar esto sería MUCHO menos que 1 entre un trillón. Pero veo poca diferencia en demostrar que este resultado se produciría menos de 1 entre un trillón frente a 1 entre mil millones.
-
Puedo apreciar entonces que p < 0,01 muestra que hay menos de un 1% de probabilidades de que esto ocurra, mientras que p < 0,001 indica que un resultado como éste es aún más improbable que el valor p mencionado, pero ¿deberían sus conclusiones ser completamente diferentes? Al fin y al cabo, ambos son valores p significativos. La única forma que puedo concebir de querer registrar el valor p exacto es durante una corrección de Bonferroni por la que el umbral cambia debido al número de comparaciones realizadas, disminuyendo así el error de tipo I. Pero aún así, ¿por qué querría mostrar un valor p que es 12 órdenes de magnitud más pequeño que su umbral de significación?
-
¿Y la aplicación de la corrección de Bonferroni no es en sí misma ligeramente arbitraria? En el sentido de que, inicialmente, la corrección se considera muy conservadora y, por tanto, hay otras correcciones que se pueden elegir para acceder al nivel de significación que el observador podría utilizar para sus comparaciones múltiples. Pero debido a esto, el punto en el que algo se convierte en significativo no es esencialmente variable dependiendo de la estadística que el investigador quiera utilizar. ¿Deben las estadísticas estar tan abiertas a la interpretación?
En conclusión, la estadística no debería ser menos subjetiva (aunque supongo que la necesidad de que sea subjetiva es como consecuencia de un sistema multivariante), pero en definitiva quiero alguna aclaración: ¿puede ser algo más significativo que otra cosa? ¿Y será suficiente p < 0,001 respecto a intentar registrar el valor p exacto?