103 votos

Es esta realmente la forma p-valores de trabajo? Puede un millón de trabajos de investigación por año se basa en la pura aleatoriedad?

Yo soy muy nuevo en las estadísticas, y estoy aprendiendo a entender los conceptos básicos, incluyendo la $p$-values. But there is a huge question mark in my mind right now, and I kind of hope my understanding is wrong. Here's my thought process:

Aren't all researches around the world somewhat like the monkeys in the "infinite monkey theorem"? Consider that there are 23887 universities in the world. If each university has 1000 students, that's 23 million students each year.

Let's say that each year, each student does at least one piece of research, using hypothesis testing with $\alpha=0.05$.

Doesn't that mean that even if all the research samples were pulled from a random population, about 5% of them would "reject the null hypothesis as invalid". Wow. Think about that. That's about a million research papers per year getting published due to "significant" results.

If this is how it works, this is scary. It means that a lot of the "scientific truth" we take for granted is based on pure randomness.

A simple chunk of R code seems to support my understanding:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

So does this article on successful $p$pesca: he Engañado a Millones de personas En el Pensamiento de Chocolate Ayuda a la Pérdida de Peso. He aquí Cómo.

De verdad es esto todo lo que hay? Es esta la manera de la "ciencia" se supone que funciona?

72voto

Zizzencs Puntos 1358

Esta es sin duda una preocupación válida, pero esto no es del todo correcto.

Si 1,000,000 que se realizan los estudios y todas las hipótesis nula son verdaderas entonces aproximadamente 50,000 se tienen resultados significativos a p < 0.05. Eso es lo que un valor de p de medios. Sin embargo, la nula es esencialmente nunca estrictamente cierto. Pero incluso si soltamos a "casi cierto" o "derecha" o algo así, eso significaría que el 1.000.000 de estudios de todos tendrían que ser sobre cosas como

  • La relación entre el número de seguro social y el coeficiente intelectual
  • Es la longitud de los dedos de los pies relacionados con el estado de su nacimiento?

y así sucesivamente. Una tontería.

Uno de los problemas es, por supuesto, que no sabemos qué valores nulos son verdaderas. Otro problema es el @Glen_b menciona en su comentario - el cajón de archivo problema.

Esta es la razón por la que yo tanto como Robert Abelson las ideas que brotan en las Estadísticas como Principios Argumento. Es decir, los datos estadísticos deben ser parte de una serie de principios argumento de por qué algo es el caso, y debe ser juzgado por la MAGIA criterios:

  • Magnitud: ¿qué tan grande es el efecto?
  • Articulación: Está llena de "ifs", "y" y "peros" (eso es malo)
  • Generalidad: ¿ampliamente aplica?
  • Interestingness
  • Credibilty: Increíble reclamos requieren una gran cantidad de evidencia

42voto

Chance Puntos 1

No todas las investigaciones en todo el mundo, algo así como el "infinito mono teorema de" los monos?

Recuerde, los científicos están críticamente NO como número infinito de monos, debido a su comportamiento de investigación, particularmente la experimentación--no es nada al azar. Los experimentos son (al menos se supone) increíblemente cuidadosamente controlados, las manipulaciones y las medidas que se basan en la mecánica informado hipótesis que se basa en un gran cuerpo de investigación anterior. Ellos no son sólo aleatorio disparos en la oscuridad (o los dedos de mono en las máquinas de escribir).

Tener en cuenta que hay 23887 universidades en el mundo. Si cada universidad tiene 1000 estudiantes, de los que 23 millones de los estudiantes de cada año. Digamos que cada año, cada estudiante hace en menos de una investigación,

La estimación para el número de publicó los hallazgos de la investigación tiene que ser muy. No sé si hay 23 millones de "estudiantes universitarios" (¿es que sólo se encuentran las universidades, colegios o demasiado?) en el mundo, pero sé que la gran mayoría de ellos nunca publica cualquier hallazgos científicos. Quiero decir, la mayoría de ellos no son ciencias, e incluso la mayoría de especialización en ciencia nunca publicar los resultados.

Más probable estimado (algunos de discusión) para el número de publicaciones científicas de cada año es de aproximadamente 1-2 millones de dólares.

¿Eso no significa que, incluso si toda la investigación de las muestras fueron sacados de azar de la población, aproximadamente el 5% de ellos "rechazar la nula hipótesis como válida". Wow. Pensar en eso. Eso es alrededor de un millón de documentos de investigación por año conseguir publicado debido a la "significativa" resultados.

Tenga en cuenta que no todas las investigaciones publicadas se han estadísticas donde la importancia es a la derecha en la p = 0.05 valor. A menudo uno ve a los valores de p como p<0.01 o incluso p<0.001. No sé lo que es el "decir" el valor de p es de más de un millón de documentos, por supuesto.

Si esta es la forma en que funciona, esto es aterrador. Esto significa que muchas de la "verdad científica" que damos por sentado, se basa en la pura aleatoriedad.

También hay que tener en mente, los científicos están realmente no debe tomar un pequeño número de resultados en p 0,05 como "verdad científica". Ni siquiera cerca. Los científicos se supone integrar a lo largo de muchos estudios, cada uno de los cuales tiene estadísticos adecuados de alimentación, mecanismo plausible, la reproducibilidad, la magnitud del efecto, etc., y las incorpore en un modelo tentativo de cómo algunas fenómeno de las obras.

Pero, ¿significa esto que casi todos los de la ciencia es la correcta? De ninguna manera. Los científicos son humanos, y son presa de los prejuicios, la mala metodología de la investigación (incluyendo inadecuado de los métodos estadísticos), el fraude, un simple error humano, y la mala suerte. Probablemente más dominante en por qué una porción saludable de la ciencia publicada es incorrecto estos factores en lugar de la p<0.05 convención. De hecho, vamos a cortar la persecución, y hacer una "más miedo" instrucción de lo que han puesto:

¿Por Qué La Mayoría De Los Publicó Los Hallazgos De La Investigación Son Falsas

21voto

zowens Puntos 1417

Su comprensión de $p$-valores parece ser correcta.

Preocupaciones similares se expresó con bastante frecuencia. Lo que tiene sentido para calcular en tu ejemplo, no es sólo el número de estudios de los 23 millones que llegan a los falsos positivos, pero también la proporción de estudios que obtuvo un efecto significativo de que eran falsas. Esto se llama "tasa de falso descubrimiento". No es igual a $\alpha$ y depende de varias cosas como por ejemplo, la proporción de valores nulos a través de sus 23 millones de estudios. Esto es imposible, por supuesto, lo sé, pero uno puede hacer conjeturas. Algunas personas dicen que la tasa de falso descubrimiento es al menos un 30%.

Ver, por ejemplo, esta discusión reciente sobre un papel de 2014 por David Colquhoun: Confusión con la tasa de falso descubrimiento y de múltiples pruebas. He estado argumentando en contra de este "al menos el 30%" de lo estimado, pero estoy de acuerdo en que en algunos campos de investigación de la tasa de falso descubrimiento puede ser un poco más alto que el 5%. Este es de hecho preocupante.

No creo que decir que nulo es casi nunca la verdadera ayuda aquí; Tipo S y Tipo M de errores (como el que se presentó por Andrew Gelman) no son mucho mejores que las de tipo I/II de errores.

Creo que lo que realmente significa, es que uno nunca debe confiar en un hecho aislado "significativo" del resultado.

Esto es cierto incluso en la física de alta energía con sus super estrictas $\alpha\approx 10^{-7}$ criterion; we believe the discovery of the Higgs boson partially because it fits so well to the theory prediction. This is of course much much MUCH more so in some other disciplines with much lower conventional significance criteria ($\alpha=0.05$) y la falta de muy específico de las predicciones teóricas.

Buenos estudios, al menos en mi campo, no informan de un hecho aislado $p<0.05$ result. Such a finding would need to be confirmed by another (at least partially independent) analysis, and by a couple of other independent experiments. If I look at the best studies in my field, I always see a whole bunch of experiments that together point at a particular result; their "cumulative" $p$-valor (que no es nunca explícitamente calculada) es muy baja.

Para decirlo de otra manera, creo que si un investigador pone un poco de $p<0.05$ encontrar, sólo significa que él o ella debería ir a investigar más. Esto definitivamente no significa que deba ser considerado como una "verdad científica".

17voto

Zendmailer Puntos 138

Su preocupación es exactamente la preocupación que subyace en gran parte de la discusión actual en las ciencias acerca de la reproducibilidad. Sin embargo, el verdadero estado de las cosas es un poco más complicado de lo que te sugieren.

En primer lugar, vamos a establecer que parte de la terminología. Hipótesis nula pruebas de significación puede ser entendido como una señal de la detección del problema, la hipótesis nula es verdadera o falsa, y usted puede elegir para rechazar o retener. La combinación de dos sentencias y dos posibles "true" estados de cosas y los resultados en la siguiente tabla, que la mayoría de la gente vea en algún momento cuando están en el primer aprendizaje de la estadística:

enter image description here

Los científicos que utilizan la hipótesis nula pruebas de significación están tratando de maximizar el número de decisiones correctas (en azul) y minimizar el número de decisiones incorrectas (mostrado en rojo). El trabajo de los científicos también están tratando de publicar sus resultados de manera que puedan obtener puestos de trabajo y avanzar en sus carreras.

Por supuesto, tener en cuenta que, como muchos otros ms responden ya he mencionado, la hipótesis nula no es elegido al azar, sino que es generalmente elegido específicamente porque, basado en el previo de la teoría, el científico cree que es falsa. Desafortunadamente, es difícil cuantificar la proporción de veces que los científicos son correctos en sus predicciones, pero ten en cuenta que, cuando los científicos están tratando con el "$H_0$ es falso" de la columna, que debería estar preocupado acerca de los falsos negativos en lugar de positivos falsos.


Usted, sin embargo, parecen estar preocupados acerca de los falsos positivos, así que vamos a centrarnos en el "$H_0$ es cierto que en la columna". En esta situación, ¿cuál es la probabilidad de que un científico de la publicación de un resultado falso?

El sesgo de publicación

Mientras la probabilidad de que la publicación no depende de si el resultado es "significativo", entonces la probabilidad es, precisamente, % # % # % -- .05, y a veces menos, dependiendo del campo. El problema es que hay buena evidencia de que la probabilidad de que la publicación no dependen de si el resultado es significativo (véase, por ejemplo, Stern & Simes, 1997; Dwan et al., 2008), ya sea porque los científicos sólo presentar resultados significativos para la publicación (el llamado archivo-cajón problema; Rosenthal, 1979) o porque no significativos, los resultados son presentados para su publicación, pero no lo hacen a través de la revisión de pares.

El problema general de la probabilidad de publicación dependiendo de la observó $\alpha$-valor es lo que se entiende por sesgo de publicación. Si damos un paso atrás y pensar acerca de las implicaciones de sesgo de publicación para una investigación más amplio de la literatura, una literatura de investigación afectados por el sesgo de publicación todavía contienen verdaderos resultados - a veces la hipótesis nula de que un científico afirma ser falso, realmente será falsa, y, dependiendo del grado de sesgo de publicación, a veces, un científico correctamente afirmación de que una determinada hipótesis nula es verdadera. Sin embargo, la literatura de la investigación también será desordenado por demasiado grande la proporción de falsos positivos (es decir, estudios en los que el investigador afirma que la hipótesis nula es falsa cuando en realidad es verdadera).

Investigador grados de libertad

El sesgo de publicación no es la única forma en la que, bajo la hipótesis nula, la probabilidad de que la publicación de un resultado significativo será mayor que $p$. Dada la presencia de un número suficientemente grande de las cuestionables prácticas de la investigación, la tasa de falsos positivos puede ir tan alto como .60 incluso si la tasa nominal se fijó en .05 (Simmons, Nelson, & Simonsohn, 2011).

Es importante tener en cuenta que el uso inadecuado de investigador grados de libertad (que es a veces conocido como un cuestionable práctica de investigación; Martinson, Anderson, & de Vries, 2005) es que no es lo mismo que hacer de los datos. En algunos casos, excluyendo los valores atípicos es la cosa correcta a hacer, ya sea porque el equipo falla o por alguna otra razón. La cuestión clave es que, en la presencia del investigador grados de libertad, las decisiones tomadas durante el análisis, a menudo dependen de cómo los datos resultan (Gelman Y Loken, 2014), incluso si los investigadores en cuestión no son conscientes de este hecho. Mientras los investigadores utilizan investigador grados de libertad (consciente o inconscientemente) para aumentar la probabilidad de un resultado significativo (tal vez porque significativa los resultados son más "publicable"), la presencia de investigador grados de libertad se sobrepoblan una investigación de la literatura con los falsos positivos de la misma manera como el sesgo de publicación.


Una advertencia importante para la discusión anterior es que los documentos científicos (al menos en psicología, que es mi campo) rara vez se componen de resultados individuales. Más comunes son múltiples estudios, cada uno de los cuales involucra a múltiples pruebas-el énfasis está en la construcción de una mayor argumento y descartar explicaciones alternativas para las pruebas presentadas. Sin embargo, el selectivo de la presentación de resultados (o de la presencia del investigador grados de libertad), que puede producir un sesgo en un conjunto de resultados tan fácilmente como un resultado único. Hay evidencia de que los resultados que se presentan en múltiples documentos de estudio es a menudo mucho más limpio y más fuerte que uno podría esperar, incluso si todas las predicciones de estos estudios se llevaron a toda la verdad (Francisco de 2013).


Conclusión

Fundamentalmente, estoy de acuerdo con su intuición de que la hipótesis nula pruebas de significación puede ir mal. Sin embargo, yo diría que a los verdaderos culpables de la producción de una alta tasa de falsos positivos son procesos como el sesgo de publicación y la presencia del investigador grados de libertad. De hecho, muchos científicos son conscientes de estos problemas, y la mejora científica de la reproducibilidad es muy activo, el tema actual de discusión (por ejemplo, Nosek Y Bar-Anan, 2012; Nosek, Espías, Y Motyl, 2012). Así que usted está en buena compañía con sus preocupaciones, pero también creo que también hay motivos para algo de optimismo cauteloso.


Referencias

Stern, J. M., & Simes, R. J. (1997). Sesgo de publicación: Evidencia de retraso en la publicación de un estudio de cohorte de proyectos de investigación clínica. BMJ, 315(7109), 640-645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, D. G., Arnaiz, J. A., Bloom, J., Alonso, A., Cronin, E., ... Williamson, P. R. (2008). Revisión sistemática de la evidencia empírica de estudio de sesgo de publicación y los resultados de informes de sesgo. La revista PLoS ONE, 3(8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). El cajón de archivo problema y la tolerancia de los resultados nulos. Psychological Bulletin, 86(3), 638-641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). Falso-la psicología positiva: no divulgada de la flexibilidad en la recolección y análisis de datos permite presentar algo tan importante. La Ciencia Psicológica, 22(11), 1359-1366. http://doi.org/10.1177/0956797611417632

Martinson, B. C., Anderson, M. S., & de Vries, R. (2005). Los científicos se comportan mal. La naturaleza, 435, 737-738. http://doi.org/10.1038/435737a

Gelman, A., & Loken, E. (2014). La estadística de la crisis en la ciencia. American Scientist, 102, 460-465.

Francisco, G. (2013). La replicación, la consistencia estadística, y el sesgo de publicación. Diario de Matemáticas Psicología, 57(5), 153-169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, B. A., & Bar-Anan, Y. (2012). Utopía científica: I. Apertura de la comunicación científica. Psicológica De La Investigación, 23(3), 217-243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, B. A., Espías, J. R., & Motyl, M. (2012). Utopía científica: II. La reestructuración de incentivos y prácticas para promover la verdad sobre publishability. Perspectivas de la Ciencia Psicológica, 7(6), 615-631. http://doi.org/10.1177/1745691612459058

10voto

EdM Puntos 5716

Un importante comprobar la importante cuestión que se plantea en esta pregunta es que la "verdad científica" no se basa en el individuo, aislado de publicaciones. Si un resultado es lo suficientemente interesante, se le pedirá a otros científicos a buscar las implicaciones de los resultados. Que los trabajos se tienden a confirmar o refutar el estudio original. Podría ser un 1/20 de probabilidad de rechazar una verdadera hipótesis nula en un estudio individual, pero sólo un 1/400 de hacerlo dos veces en una fila.

Si los científicos hicieron simplemente repetir los experimentos hasta que encuentra la "importancia" y, a continuación, publicaron sus resultados el problema puede ser tan grande como el OP sugiere. Pero eso no es cómo funciona la ciencia, al menos en mis casi 50 años de experiencia en la investigación biomédica. Por otra parte, una publicación rara vez es acerca de un "significativo" experimento sino que se basa en un conjunto de inter-relacionados con los experimentos (cada uno deben ser "significativo" en sus el propios) que juntos proveen soporte para una más amplia, sustantivo hipótesis.

Un problema mucho más grande que viene de los científicos que están demasiado comprometidos con su propia hipótesis. Entonces pueden sobre-interpretar las implicaciones de los experimentos individuales para apoyar su hipótesis, participar en la dudosa la edición de datos (como arbitrariamente la eliminación de valores atípicos), o (como he visto y ayudado a la captura) acaba de hacer de los datos.

Sin embargo, la ciencia es un gran proceso social, independientemente de la mitología en torno a los científicos locos ocultar lo alto de las torres de marfil. El dar y tomar de entre los miles de científicos que persiguen sus intereses, basado en lo que han aprendido del trabajo de otros, es la máxima protección institucional de los falsos positivos. Falsos hallazgos a veces puede ser perpetuado durante años, pero si un tema es lo suficientemente importante como el proceso de llegar a identificar las conclusiones erróneas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X