Processing math: 100%

37 votos

¿Es esencialmente inútil y peligroso utilizar el valor p?

Este artículo " Las probabilidades, continuamente actualizadas" del NY Times me llamó la atención. Para ser breve, afirma que

La [estadística bayesiana] está resultando especialmente útil para abordar problemas complejos, incluyendo búsquedas como la que los guardacostas utilizaron en 2013 para encontrar al pescador desaparecido, John Aldridge (aunque no, de momento, en la búsqueda del vuelo 370 de Malaysia Airlines)........, la estadística bayesiana se está extendiendo por todo, desde la física hasta la investigación del cáncer, pasando por la ecología y la psicología...

En el artículo, también hay algunas críticas sobre el valor p de los frecuentistas, por ejemplo:

Los resultados suelen considerarse "estadísticamente significativos" si el valor p es inferior al 5%. Pero esta tradición entraña un peligro, según Andrew Gelman, profesor de estadística en Columbia. Incluso si los científicos hicieran siempre los cálculos correctamente -y no lo hacen, argumenta-, aceptar todo con un valor p del 5 por ciento significa que uno de cada 20 resultados "estadísticamente significativos" no es más que ruido aleatorio.

Además de lo anterior, quizás el artículo más famoso que critica el valor p es este "Método científico: Errores estadísticos" por Regina Nuzzo de Nature en el que se han discutido muchas cuestiones científicas planteadas por el enfoque de los valores p, como los problemas de reproducibilidad, la piratería de los valores p, etc.

Los valores P, el "patrón oro" de la validez estadística, no son tan fiables como muchos científicos suponen. ...... Quizá la peor falacia sea el tipo de autoengaño para el que el psicólogo Uri Simonsohn, de la Universidad de Pensilvania, y sus colegas han popularizado el término P-hacking; también se conoce como dragado de datos, fisgoneo, pesca, búsqueda de significación y doble inmersión. "El P-hacking", dice Simonsohn, "consiste en probar varias cosas hasta obtener el resultado deseado", incluso de forma inconsciente. ...... "Ese hallazgo parece haberse obtenido mediante p-hacking, los autores eliminaron una de las condiciones para que el valor p global fuera inferior a 0,05", y "Ella es una p-hacker, siempre supervisa los datos mientras se recogen".

Otra cosa es una trama interesante como la siguiente de aquí con el comentario sobre la trama:

No importa lo pequeño que sea el efecto, siempre puedes hacer el duro trabajo de recopilar datos para superar el umbral de p < .05. Mientras el efecto que estás estudiando no sea inexistente, los valores p sólo miden el esfuerzo que has hecho para recopilar datos.

enter image description here

Con todo lo anterior, mis preguntas son:

  1. ¿Qué significa exactamente el argumento de Andrew Gelman, en la segunda cita en bloque? ¿Por qué interpreta el valor p del 5 por ciento como que "uno de cada 20 resultados estadísticamente significativos no es más que ruido aleatorio"? No me convence, ya que para mí el valor p se utiliza para hacer una inferencia sobre un único estudio. Su argumento parece estar relacionado con las pruebas múltiples.

    Actualización: Consulta el blog de Andrew Gelman al respecto: ¡No, no he dicho eso! (Créditos a @Scortchi, @whuber).

  2. Dadas las críticas sobre el valor p, y también dado que hay muchos criterios de información, como AIC, BIC, Mallow's Cp para evaluar la significación de un modelo (por lo tanto, de las variables), ¿no deberíamos utilizar el valor p para la selección de variables en absoluto, sino utilizar esos criterios de selección de modelos?

  3. ¿Existen buenas orientaciones prácticas sobre el uso del valor p para el análisis estadístico que puedan conducir a resultados de investigación más fiables?

  4. ¿Sería el marco de la modelización bayesiana un mejor camino a seguir, como defienden algunos estadísticos? En concreto, ¿tendría el enfoque bayesiano más posibilidades de resolver los problemas de falsos hallazgos o de manipulación de los datos? Tampoco estoy convencido en este caso, ya que la prioridad es muy subjetiva en el enfoque bayesiano. ¿Existe algún estudio práctico y conocido que demuestre que el enfoque bayesiano es mejor que el valor p del frecuentista, o al menos en algunos casos particulares?

    Actualización: Me interesaría especialmente saber si hay casos en los que el enfoque bayesiano es más fiable que el enfoque frecuentista de los valores p. Por "fiable" me refiero a que el enfoque bayesiano tiene menos probabilidades de manipular los datos para obtener los resultados deseados. ¿Alguna sugerencia?


Actualización 6/9/2015

Acabo de enterarme de la noticia y he pensado que sería bueno ponerla aquí para debatirla.

La revista de psicología prohíbe los valores P

Una controvertida prueba estadística ha llegado a su fin, al menos en una revista. A principios de este mes, los editores de Basic and Applied Social Psychology (BASP) anunciaron que la revista dejaría de publicar artículos que contuvieran valores P porque los estadísticos se utilizaban con demasiada frecuencia para respaldar investigaciones de menor calidad.

Junto con un documento reciente, "El voluble valor P genera resultados irreproducibles" de Nature , sobre el valor P.

Actualización 5/8/2016

En marzo, la Asociación Americana de Estadística (ASA) publicó declaraciones sobre la significación estadística y los valores p, "....La declaración de la ASA pretende dirigir la investigación hacia una "era post p<0,05".

Esta declaración contiene 6 principios que abordan el mal uso del valor p:

  1. Los valores P pueden indicar la incompatibilidad de los datos con un modelo estadístico determinado.
  2. Los valores P no miden la probabilidad de que la hipótesis estudiada sea cierta, ni la probabilidad de que los datos se hayan producido por azar azar.
  3. Las conclusiones científicas y las decisiones empresariales o políticas no deben basarse únicamente en si un valor p supera un umbral específico.
  4. Una inferencia adecuada requiere información completa y transparencia.
  5. Un valor p, o significación estadística, no mide el tamaño de un efecto o la importancia de un resultado.
  6. Por sí mismo, un valor p no proporciona una buena medida de evidencia respecto a un modelo o hipótesis.

Detalles: "La declaración de la ASA sobre los valores p: contexto, proceso y propósito" .

0 votos

Correspondiente ¿Por qué las pruebas de hipótesis frecuentistas se inclinan a rechazar la hipótesis nula con muestras suficientemente grandes? entre otras cosas porque mi respuesta apunta a un método para corregir este sesgo.

11 votos

Re 1: Sospecho que el bloque de Gelman podría ser una cita errónea, porque necesita fuertes suposiciones (contrafácticas) para ser correcto. Si todo lo que se ha estudiado en el mundo siguiera sus hipótesis nulas, y todas las hipótesis nulas fueran simples (y no compuestas), entonces por construcción el 5% de todos los valores p menores que 0.05 ocurriría por casualidad: sería "ruido aleatorio". Sin embargo, si la gente realizara siempre experimentos detallados y extensos en los que la hipótesis alternativa fuera cierta (como en la última cita), entonces esencialmente el 100% de todos los valores p serían menores que 0.05 y ninguno de ellos sería "ruido".

10 votos

@whuber: Tienes razón: ¡No, no he dicho eso! .

26voto

Sean Hanley Puntos 2428

He aquí algunas reflexiones:

  1. Como señala @whuber, dudo que Gelman haya dicho eso (aunque puede haber dicho algo que suene parecido). El cinco por ciento de los casos en los que el nulo es verdadero arrojará resultados significativos (errores de tipo I) utilizando un alfa de 0,05. Si suponemos que la potencia real de todos los estudios en los que el nulo era falso era 80% la afirmación sólo podría ser cierta si la proporción de estudios realizados en los que la nulidad fuera verdadera con respecto a los estudios en los que la nulidad fuera falsa fuera 100/118.7584% .
  2. Los criterios de selección de modelos, como el AIC, pueden considerarse una forma de seleccionar un p -valor. Para entenderlo mejor, puede ser útil leer la respuesta de @Glen_b aquí: Regresión por etapas en R - Valor p crítico . Además, nada impide que la gente "piratee el AIC", si el AIC se convirtiera en el requisito para la publicación.
  3. Una buena guía para ajustar los modelos de manera que no se invalide su p -valores sería el libro de Frank Harrell, Estrategias de modelización de la regresión .
  4. No me opongo dogmáticamente al uso de métodos bayesianos, pero no creo que resuelvan este problema. Por ejemplo, puedes seguir recogiendo datos hasta que el intervalo creíble ya no incluya el valor que querías rechazar. De este modo, se produce un "pirateo del intervalo de credibilidad". Tal y como yo lo veo, el problema es que muchos profesionales no están intrínsecamente interesados en los análisis estadísticos que utilizan, por lo que utilizarán cualquier método que se les exija de forma irreflexiva y mecánica. Para saber más sobre mi punto de vista, puede ser útil leer mi respuesta a: El tamaño del efecto como hipótesis para la prueba de significación .

11 votos

(+1) Una forma fácil de piratear un intervalo creíble es adoptar el prior adecuado :-). Por supuesto, ningún profesional competente haría esto -Gelman hace hincapié en el uso de evaluaciones de sensibilidad, hiperprioridades no informativas, etc.- pero, de nuevo, ningún usuario competente de pruebas de hipótesis piratearía valores p, ¿verdad? Por otra parte, en un análisis bayesiano podría ser más difícil ocultar lo que se está haciendo -suponiendo que se revele claramente el valor a priori- en comparación con todos los métodos de análisis bayesianos. indocumentados análisis que pueden estar implicados en el pirateo de los valores p.

1 votos

@whuber, eso es cierto, pero creo que podemos dejar de lado cualquier problema w / la inadecuación o la subjetividad de la anterior. Si el verdadero efecto no es exactamente 0, con suficientes datos el intervalo creíble eventualmente no incluirá 0, así como la p será <.05 (cf, la última cita), por lo que sólo puede seguir recogiendo datos hasta que obtenga el resultado que desea, independientemente de la anterior.

4 votos

Buenos puntos. Me acuerdo de una pregunta reciente sobre la predicción de fallos en 10.000 productos después de no observar ningún fallo en 100.000 de ellos. La respuesta es bastante sensible a la predicción previa porque los fallos son muy poco frecuentes. Este puede ser el tipo de situación excepcional que "confirma la regla"; demuestra que en realidad puede ser impracticable recopilar suficientes datos para obtener un resultado deseado. Es precisamente entonces cuando algunos clientes empiezan a implorar al estadístico que "haga su magia" para conseguir el resultado deseado. Probablemente muchos lectores hayan sentido esa presión alguna vez... .

10voto

Nulled Puntos 101

Para mí, una de las cosas más interesantes de la controversia sobre el p-hacking es que toda la historia de p<=0,05 como estándar de significación estadística "una vez en una luna azul", como señaló Joseph Kaldane en un artículo de la JASA sobre estadística forense en los años 90, no se basa en absolutamente ninguna teoría estadística. Es una convención, una simple heurística y una regla empírica que comenzó con R.A. Fisher y que desde entonces ha sido reificada o consagrada en su actual estatus "incuestionable". Bayesiano o no, ya es hora de cuestionar esta norma métrica o, al menos, de darle el escepticismo que merece.

Dicho esto, mi interpretación del punto de Gelman es que, como es bien sabido, el proceso de revisión por pares premia la significación estadística positiva y castiga los resultados insignificantes no publicando esos trabajos. Esto es independiente de si la publicación de un hallazgo insignificante tendría o no un impacto potencialmente grande en el pensamiento y la teorización de un dominio determinado. Gelman, Simonshohn y otros han señalado repetidamente el abuso del nivel de significación de 0,05 en la investigación revisada y publicada por pares, poniendo ejemplos de hallazgos ridículos pero estadísticamente significativos en la investigación paranormal, social y psicológica. Uno de los más atroces fue el hallazgo estadísticamente significativo de que las mujeres embarazadas eran más propensas a llevar vestidos rojos. Gelman sostiene que, a falta de impugnaciones lógicas de los resultados estadísticos, el mero hecho de que un análisis sea "estadísticamente significativo" es un potencialmente explicación sin sentido. Aquí, se refiere a la industria riesgo laboral con argumentos demasiado técnicos y abstrusos que poco o nada aportan al debate entre un público no especializado.

Este es un punto que Gary King hace con vehemencia cuando prácticamente ruega a los politólogos cuantitativos (y, por extensión, a todos los cuants) que dejen de hacer reportajes mecánicos y técnicos como "este resultado fue significativo a un nivel p<=0,05" y pasen a interpretaciones más sustantivas. He aquí una cita de un artículo suyo,

(1) transmiten estimaciones numéricamente precisas de las cantidades de mayor interés sustantivo, (2) incluyen medidas razonables de incertidumbre sobre esas estimaciones y (3) requieren pocos conocimientos especializados para su comprensión. La siguiente afirmación simple satisface nuestros criterios: "En igualdad de condiciones, un año adicional de educación aumentaría sus ingresos anuales en 1.500 dólares de media, más o menos unos 500 dólares". Cualquier estudiante de secundaria inteligente entendería esa frase, por muy sofisticado que sea el modelo estadístico y potentes los ordenadores utilizados para producirla.

El punto de vista de King está muy bien tomado y traza la dirección que debe tomar el debate.

Aprovechar al máximo los análisis estadísticos: Mejorar la interpretación y la presentación King, Tomz y Wittenberg, 2002, Am Jour of Poli Sci .

3 votos

+1 Gracias por esta amena, informativa y reflexiva contribución al hilo.

0 votos

@whuber Gracias por las amables palabras. El tiempo dirá si otros participantes están de acuerdo o no.

2 votos

Puede que sea un iluso, pero me gusta pensar que algunos (si no la mayoría) de nuestros votantes activos no votan en función de si están de acuerdo o no, sino de si un mensaje responde a la pregunta original de forma clara y autorizada. Al fin y al cabo, el texto que aparece sobre el icono de upvote dice "Esta respuesta es útil", no "Estoy de acuerdo con este tipo". (Esto no debe confundirse con la votación en nuestro meta sitio, que hace significan grado de acuerdo). Esta impresión se ve corroborada por los numerosos distintivos de deportividad premiado.

5voto

LacusVir Puntos 11

Estas son algunas de mis reflexiones sobre la pregunta 3 después de leer todos los acertados comentarios y respuestas.

Tal vez una orientación práctica en el análisis estadístico para evitar el hackeo del valor p sea mirar el tamaño del efecto científicamente (o, biológicamente, clínicamente, etc.) significativo.

En concreto, la investigación debe predefinir el tamaño del efecto que puede declararse útil o significativo antes del análisis de los datos o incluso antes de la recogida de los mismos. Por ejemplo, si dejamos θ denotan un efecto de la droga, en lugar de probar la siguiente hipótesis, H0:θ=0vs.Ha:θ0, siempre hay que probar H0:θ<δvs.Ha:θδ, con δ siendo el tamaño del efecto predefinido para reclamar una significación significativa.

Además, para evitar el uso de un tamaño de muestra demasiado grande para detectar el efecto, también debe tenerse en cuenta el tamaño de muestra necesario. Es decir, debemos limitar el tamaño máximo de la muestra utilizada para el experimento.

En resumen,

  1. Necesitamos predefinir un umbral para el tamaño del efecto significativo para declarar la significación;
  2. Necesitamos predefinir un umbral para el tamaño de la muestra utilizado en el experimento para cuantificar cuán detectable es el tamaño del efecto significativo;

Con lo anterior, tal vez podamos evitar el efecto "significativo" menor que reclama un tamaño de muestra enorme.


[Actualización 6/9/2015]

En cuanto a la pregunta 3, he aquí algunas sugerencias basadas en la reciente artículo de nature: "El voluble valor P genera resultados irreproducibles" como he mencionado en la parte de la pregunta.

  1. Comunique las estimaciones del tamaño del efecto y su precisión, es decir, el intervalo de confianza del 95%, ya que esa información más informativa responde exactamente a preguntas como cuán grande es la diferencia o cuán fuerte es la relación o asociación;
  2. Ponga las estimaciones del tamaño del efecto y los IC del 95% en el contexto de los estudios/preguntas científicas específicas y céntrese en su relevancia para responder a esas preguntas y descarte el voluble valor P;
  3. Sustituya el análisis de la potencia por " planificación de la precisión " para determinar el tamaño de la muestra necesario para estimar el tamaño del efecto y alcanzar un grado de precisión definido.

[Fin de la actualización 6/9/2015]

4 votos

Si reescribe H0:θ=δ entonces usted está argumentando a favor de pruebas de equivalencia lo cual me parece bien en muchas situaciones. (Normalmente las pruebas de hipótesis no se presentan como la segunda situación, porque hay resultados potenciales que no están en la nula ni en la alternativa).

0 votos

@AndyW, Gracias por los comentarios. He cambiado mi respuesta en consecuencia. ¿Te parece una opción mejor?

2 votos

+1 por la referencia a ese artículo de Nature. Sin embargo, contiene algunos datos erróneos asombrosos, como la interpretación bayesiana (no anunciada) de los valores p: "Como ejemplo, si un estudio obtiene P = 0,03, hay un 90% de probabilidades de que un estudio replicado devuelva un valor P en algún lugar entre el amplio rango de 0-0,6 (intervalos de predicción del 90%), mientras que las probabilidades de P < 0,05 es sólo del 56%." Me pregunto qué distribución a priori suponen los autores y por qué es relevante.

3voto

The Diamond Z Puntos 94

En el uso contemporáneo, el valor p se refiere a la probabilidad acumulada de que los datos, dada la hipótesis nula, sean iguales o superiores a algún umbral. Por ejemplo P(D|H0)α . Creo que H0 tiende a ser una hipótesis de "ausencia de efecto", que suele ser sustituida por una comparación con la probabilidad de un resultado aleatorio satisfactoriamente improbable en algún número de ensayos. Dependiendo del campo, varía del 5% al 0,1% o menos. Sin embargo, H0 no tiene que ser una comparación con el azar.

  1. Implica que 1/20 resultados pueden rechazar el nulo cuando no deberían haberlo hecho. Si la ciencia basara sus conclusiones en experimentos individuales, la afirmación sería defendible. De lo contrario, si los experimentos fueran repetibles, implicaría que 19/20 no serían rechazados. La moraleja es que los experimentos deben ser repetibles.

  2. La ciencia es una tradición basada en la "objetividad", por lo que la "probabilidad objetiva" resulta naturalmente atractiva. Recordemos que se supone que los experimentos demuestran un alto grado de control, empleando a menudo un diseño en bloque y una aleatorización para controlar los factores ajenos al estudio. Por tanto, la comparación con el azar tiene sentido porque se supone que todos los demás factores están controlados, excepto los que se estudian. Estas técnicas tuvieron mucho éxito en la agricultura y la industria antes de ser trasladadas a la ciencia.

  3. No estoy seguro de que la falta de información haya sido realmente el problema. Es notable que para muchos en las ciencias no matemáticas la estadística es sólo una casilla que hay que marcar.

  4. Sugeriría una lectura general sobre la teoría de la decisión que une los dos marcos. Se trata simplemente de utilizar toda la información que se tenga. Los estadísticos frecuentistas asumen que los parámetros de los modelos tienen valores desconocidos de distribuciones fijas. Los bayesianos asumen que los parámetros en los modelos provienen de distribuciones condicionadas por lo que conocemos. Si hay suficiente información para formar una priorización y suficiente información para actualizarla a una posterior precisa, entonces es genial. Si no la hay, los resultados pueden ser peores.

1voto

Reproducibilidad de los resultados de las pruebas estadísticas

Se trata de un ejercicio breve y sencillo para evaluar la reproducibilidad de las decisiones basadas en pruebas estadísticas.

Considere una hipótesis nula H0 con un conjunto de hipótesis alternativas que contienen H1 y H2. Configure el procedimiento de prueba de hipótesis estadística con un nivel de significación de 0,05 para tener una potencia de 0,8, si H1 es verdadera. Suponga además que la potencia para H2 es de 0,5. Para evaluar la reproducibilidad del resultado de la prueba, se considera el experimento de ejecutar el procedimiento de prueba dos veces. Partiendo de la situación en la que H0 es verdadera, las probabilidades de los resultados del experimento conjunto se muestran en la Tabla 1. La probabilidad de no poder reproducir las decisiones es de 0,095.

Tabla 1. Frecuencias, si H0 es verdadera

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

Las frecuencias cambian a medida que cambia el verdadero estado de la naturaleza. Suponiendo que H1 es verdadera, H0 puede rechazarse como se ha diseñado con una potencia de 0,8. Las frecuencias resultantes para los diferentes resultados del experimento conjunto se muestran en la Tabla 2. La probabilidad de no poder reproducir las decisiones es de 0,32.

Tabla 2. Frecuencias, si H1 es verdadera

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

Suponiendo que H2 sea cierta, H0 se rechazará con una probabilidad de 0,5. Las frecuencias resultantes para los diferentes resultados del experimento conjunto se muestran en la Tabla 3. La probabilidad de no poder reproducir las decisiones es de 0,5.

Tabla 3. Frecuencias, si H2 es verdadera

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

El procedimiento de la prueba se diseñó para controlar los errores de tipo I (el rechazo de la hipótesis nula aunque sea verdadera) con una probabilidad de 0,05 y limitar los errores de tipo II (el no rechazo de la hipótesis nula aunque sea errónea y H1 sea verdadera) a 0,2. Para ambos casos, con la hipótesis H0 o H1 verdadera, esto conduce a frecuencias no despreciables, 0,095 y 0,32, respectivamente, de decisiones "no reproducibles", "contradictorias", si se repite el mismo experimento dos veces. La situación empeora con una frecuencia de hasta 0,5 para las decisiones "no reproducibles", "contradictorias", si el verdadero estado de la naturaleza se encuentra entre la hipótesis nula y la alternativa utilizada para diseñar el experimento.

La situación también puede mejorar si se controlan más estrictamente los errores de tipo 1, o si el verdadero estado de la naturaleza está muy alejado del nulo, lo que da lugar a una potencia para rechazar el nulo cercana a 1.

Por lo tanto, si quiere decisiones más reproducibles, aumente el nivel de significación y la potencia de sus pruebas. No es muy sorprendente...

0 votos

(+1) Pero no se puede fijar el p-valor al 5% antes del experimento - creo que quieres decir "nivel de significación".

0 votos

Gracias. Lo mismo en la última frase: "disminuir los niveles de significación y aumentar la potencia"

0 votos

Creo que el mayor problema con los valores p es que la gente los confunde con la significación sustantiva. Así que si p < 0,05 significa que el tamaño del efecto descubierto es lo suficientemente grande como para importar. En el trabajo me piden que genere efectos [sustantivamente] significativos generando valores p.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X