Este artículo " Las probabilidades, continuamente actualizadas" del NY Times me llamó la atención. Para ser breve, afirma que
La [estadística bayesiana] está resultando especialmente útil para abordar problemas complejos, incluyendo búsquedas como la que los guardacostas utilizaron en 2013 para encontrar al pescador desaparecido, John Aldridge (aunque no, de momento, en la búsqueda del vuelo 370 de Malaysia Airlines)........, la estadística bayesiana se está extendiendo por todo, desde la física hasta la investigación del cáncer, pasando por la ecología y la psicología...
En el artículo, también hay algunas críticas sobre el valor p de los frecuentistas, por ejemplo:
Los resultados suelen considerarse "estadísticamente significativos" si el valor p es inferior al 5%. Pero esta tradición entraña un peligro, según Andrew Gelman, profesor de estadística en Columbia. Incluso si los científicos hicieran siempre los cálculos correctamente -y no lo hacen, argumenta-, aceptar todo con un valor p del 5 por ciento significa que uno de cada 20 resultados "estadísticamente significativos" no es más que ruido aleatorio.
Además de lo anterior, quizás el artículo más famoso que critica el valor p es este "Método científico: Errores estadísticos" por Regina Nuzzo de Nature en el que se han discutido muchas cuestiones científicas planteadas por el enfoque de los valores p, como los problemas de reproducibilidad, la piratería de los valores p, etc.
Los valores P, el "patrón oro" de la validez estadística, no son tan fiables como muchos científicos suponen. ...... Quizá la peor falacia sea el tipo de autoengaño para el que el psicólogo Uri Simonsohn, de la Universidad de Pensilvania, y sus colegas han popularizado el término P-hacking; también se conoce como dragado de datos, fisgoneo, pesca, búsqueda de significación y doble inmersión. "El P-hacking", dice Simonsohn, "consiste en probar varias cosas hasta obtener el resultado deseado", incluso de forma inconsciente. ...... "Ese hallazgo parece haberse obtenido mediante p-hacking, los autores eliminaron una de las condiciones para que el valor p global fuera inferior a 0,05", y "Ella es una p-hacker, siempre supervisa los datos mientras se recogen".
Otra cosa es una trama interesante como la siguiente de aquí con el comentario sobre la trama:
No importa lo pequeño que sea el efecto, siempre puedes hacer el duro trabajo de recopilar datos para superar el umbral de p < .05. Mientras el efecto que estás estudiando no sea inexistente, los valores p sólo miden el esfuerzo que has hecho para recopilar datos.
Con todo lo anterior, mis preguntas son:
-
¿Qué significa exactamente el argumento de Andrew Gelman, en la segunda cita en bloque? ¿Por qué interpreta el valor p del 5 por ciento como que "uno de cada 20 resultados estadísticamente significativos no es más que ruido aleatorio"? No me convence, ya que para mí el valor p se utiliza para hacer una inferencia sobre un único estudio. Su argumento parece estar relacionado con las pruebas múltiples.
Actualización: Consulta el blog de Andrew Gelman al respecto: ¡No, no he dicho eso! (Créditos a @Scortchi, @whuber).
-
Dadas las críticas sobre el valor p, y también dado que hay muchos criterios de información, como AIC, BIC, Mallow's Cp para evaluar la significación de un modelo (por lo tanto, de las variables), ¿no deberíamos utilizar el valor p para la selección de variables en absoluto, sino utilizar esos criterios de selección de modelos?
-
¿Existen buenas orientaciones prácticas sobre el uso del valor p para el análisis estadístico que puedan conducir a resultados de investigación más fiables?
-
¿Sería el marco de la modelización bayesiana un mejor camino a seguir, como defienden algunos estadísticos? En concreto, ¿tendría el enfoque bayesiano más posibilidades de resolver los problemas de falsos hallazgos o de manipulación de los datos? Tampoco estoy convencido en este caso, ya que la prioridad es muy subjetiva en el enfoque bayesiano. ¿Existe algún estudio práctico y conocido que demuestre que el enfoque bayesiano es mejor que el valor p del frecuentista, o al menos en algunos casos particulares?
Actualización: Me interesaría especialmente saber si hay casos en los que el enfoque bayesiano es más fiable que el enfoque frecuentista de los valores p. Por "fiable" me refiero a que el enfoque bayesiano tiene menos probabilidades de manipular los datos para obtener los resultados deseados. ¿Alguna sugerencia?
Actualización 6/9/2015
Acabo de enterarme de la noticia y he pensado que sería bueno ponerla aquí para debatirla.
La revista de psicología prohíbe los valores P
Una controvertida prueba estadística ha llegado a su fin, al menos en una revista. A principios de este mes, los editores de Basic and Applied Social Psychology (BASP) anunciaron que la revista dejaría de publicar artículos que contuvieran valores P porque los estadísticos se utilizaban con demasiada frecuencia para respaldar investigaciones de menor calidad.
Junto con un documento reciente, "El voluble valor P genera resultados irreproducibles" de Nature , sobre el valor P.
Actualización 5/8/2016
En marzo, la Asociación Americana de Estadística (ASA) publicó declaraciones sobre la significación estadística y los valores p, "....La declaración de la ASA pretende dirigir la investigación hacia una "era post p<0,05".
Esta declaración contiene 6 principios que abordan el mal uso del valor p:
- Los valores P pueden indicar la incompatibilidad de los datos con un modelo estadístico determinado.
- Los valores P no miden la probabilidad de que la hipótesis estudiada sea cierta, ni la probabilidad de que los datos se hayan producido por azar azar.
- Las conclusiones científicas y las decisiones empresariales o políticas no deben basarse únicamente en si un valor p supera un umbral específico.
- Una inferencia adecuada requiere información completa y transparencia.
- Un valor p, o significación estadística, no mide el tamaño de un efecto o la importancia de un resultado.
- Por sí mismo, un valor p no proporciona una buena medida de evidencia respecto a un modelo o hipótesis.
Detalles: "La declaración de la ASA sobre los valores p: contexto, proceso y propósito" .
0 votos
Correspondiente ¿Por qué las pruebas de hipótesis frecuentistas se inclinan a rechazar la hipótesis nula con muestras suficientemente grandes? entre otras cosas porque mi respuesta apunta a un método para corregir este sesgo.
11 votos
Re 1: Sospecho que el bloque de Gelman podría ser una cita errónea, porque necesita fuertes suposiciones (contrafácticas) para ser correcto. Si todo lo que se ha estudiado en el mundo siguiera sus hipótesis nulas, y todas las hipótesis nulas fueran simples (y no compuestas), entonces por construcción el 5% de todos los valores p menores que 0.05 ocurriría por casualidad: sería "ruido aleatorio". Sin embargo, si la gente realizara siempre experimentos detallados y extensos en los que la hipótesis alternativa fuera cierta (como en la última cita), entonces esencialmente el 100% de todos los valores p serían menores que 0.05 y ninguno de ellos sería "ruido".
10 votos
@whuber: Tienes razón: ¡No, no he dicho eso! .
4 votos
¡Buen hallazgo, @Scortchi! Para que conste -en caso de que el enlace se estropee alguna vez- Gelman rechaza enfáticamente la caracterización del NY Times (aunque con mucho tacto) y escribe "aceptar todo con un valor p del 5 por ciento puede conducir a hallazgos espurios -casos en los que un patrón "estadísticamente significativo" observado en los datos no refleja un patrón correspondiente en la población- mucho más del 5 por ciento de las veces."
3 votos
En referencia a su comentario "Siempre y cuando el efecto que está estudiando no sea inexistente", ese es el objetivo de los estudios que implican valores p: determinar si el efecto que está estudiando está realmente presente o si las peculiaridades de los datos que ha recopilado se deben simplemente al azar. Disminuir el valor p al aumentar el tamaño de la muestra es completamente lógico desde el punto de vista matemático y, de hecho, es la única opción. De ninguna manera estás "pirateando" el valor p. Desde un punto de vista intuitivo, tiene sentido que dedicar más esfuerzo a recopilar datos se traduzca en una mayor confianza en las conclusiones que se extraen de ellos.
1 votos
@DavidWebb De acuerdo. Si el tamaño del efecto es pequeño, no pasa nada y será más fácil decir lo grande o pequeño que es el efecto con más datos. Si puedes conseguir más datos, deberías.
0 votos
Lo siento, no he podido resistirme a incluir esto de XKCD ¡! http://xkcd.com/1478/
0 votos
Esto probablemente debería ir en el hilo de dibujos animados favoritos en lugar de aquí.
0 votos
La viñeta es muy acertada, pero no aborda la cuestión. Estaría bien que respondiera realmente a la pregunta y utilizara la viñeta para ilustrar su respuesta.
1 votos
@DavidWebb, si asumimos que el nulo no puede sostenerse, entonces la idea de p-hacking está fuera de lugar. Pero cuando la nula es cierta, p será una RV uniformemente distribuida; si recopilamos datos y volvemos a comprobar p indefinidamente, vagará sin rumbo por (0,1) y está garantizado que en algún momento será <,05. Un investigador podría detenerse cuando la p obtenida fuera <,05, por lo que el concepto no es vacío. Dado que nadie recopilará datos para siempre, la pregunta importante es cuál es la probabilidad bajo el nulo de que p caiga <,05 con un N razonable.
0 votos
Toda herramienta avanzada puede ser peligrosa si no se sabe utilizar.
0 votos
@kjetilbhalvorsen, te tengo. Creo que mi pregunta esencial aquí es exactamente "cómo utilizar p-valor".
0 votos
@DavidWebb En muchos campos (por ejemplo, todas las ciencias sociales), las hipótesis nulas puntuales son a-priori falsas básicamente siempre. No hace falta recopilar ningún dato para concluir que θ≠0 hasta infinitos decimales. La pregunta a la que la gente suele querer responder es "¿es el efecto lo bastante grande como para que importe?", lo que requiere responder a la pregunta sustantiva y específica del tema de qué es "lo bastante grande". Desgraciadamente, mucha gente no se molesta en responder a esa pregunta y se limita a suponer que NHST (con nulos de paja) responde a la pregunta que realmente les interesa.
0 votos
Esta pregunta era MUY difícil de seguir debido al gran número de actualizaciones con demasiado formato (inicio de edición / fin de edición / líneas horizontales / líneas vacías / etc). Dos años después de esta discusión no es realmente importante qué se actualizó cuándo. He reordenado las actualizaciones intentando racionalizar la pregunta (pero no he recortado ni editado nada en absoluto). Creo que ahora queda mucho más claro, espero que no te importe. +1 por cierto.
0 votos
"Siempre que el efecto que estudies no sea inexistente, p -los valores sólo miden cuánto esfuerzo has dedicado a recopilar datos". Esto es cierto sólo si te comprometes con el sesgo de confirmación como modo de análisis . La forma de formular las hipótesis nulas es importante.