38 votos

Origen de "5 $\sigma$ ¿"Umbral de aceptación de pruebas en la física de partículas"?

Las noticias dicen que el CERN anunciará mañana que el bosón de Higgs ha sido detectado experimentalmente con 5 $\sigma$ pruebas. Según ese artículo:

5 $\sigma$ equivale a una probabilidad del 99,99994% de que los datos que el CMS y el ATLAS no sean sólo ruido aleatorio, y un 0,00006% de posibilidades de que hayan sido engañados; 5 $\sigma$ es la certeza necesaria para que algo sea etiquetado oficialmente como un "descubrimiento" científico.

Esto no es súper riguroso, pero parece decir que los físicos utilizan la metodología estadística estándar de "prueba de hipótesis", estableciendo $\alpha$ a $0.0000006$ que corresponde a $z=5$ (de dos colas)? ¿O hay algún otro significado?

En gran parte de la ciencia, por supuesto, el establecimiento de alfa a 0,05 se hace de forma rutinaria. Esto equivaldría a "dos- $\sigma$ ", aunque nunca he oído que se le llame así. ¿Hay otros campos (además de la física de partículas) en los que una definición mucho más estricta de alfa es estándar? ¿Alguien conoce una referencia de cómo los cinco $\sigma$ ¿la regla fue aceptada por la física de partículas?

Actualización: Hago esta pregunta por una sencilla razón. Mi libro Bioestadística intuitiva (como la mayoría de los libros de estadística) tiene una sección que explica lo arbitraria que es la regla habitual de "P<0,05". Me gustaría añadir este ejemplo de un campo científico en el que un valor mucho (mucho) menor de $\alpha$ se considera necesario. Pero si el ejemplo es realmente más complicado, con el uso de métodos bayesianos (como sugieren algunos comentarios más abajo), entonces no sería del todo adecuado o requeriría mucha más explicación.

14voto

MattoxBeckman Puntos 827

En la mayoría de las aplicaciones de la estadística existe esa vieja historia de que "todos los modelos son erróneos, algunos son útiles". En este caso, sólo se espera que un modelo funcione a un nivel determinado, ya que estamos describiendo un proceso increíblemente complicado mediante un modelo sencillo.

La física es muy diferente, por lo que la intuición desarrollada a partir de modelos estadísticos no es tan apropiada. En la Física, en particular en la física de partículas que se ocupa directamente de las leyes físicas fundamentales, se supone que el modelo es realmente una descripción exacta de la realidad. Cualquier desviación de lo que predice el modelo debe explicarse completamente por el ruido experimental, no por una limitación del modelo. Esto significa que si el modelo es bueno y correcto y el aparato experimental entendió la importancia estadística debe ser muy alto, de ahí el alto listón que se ha puesto.

La otra razón es histórica, la comunidad de físicos de partículas se ha quemado en el pasado por "descubrimientos" con niveles de significación más bajos que fueron retractados posteriormente, por lo que ahora son generalmente más cautelosos.

13voto

user164061 Puntos 281

Historia y origen

Según Robert D Cousins $^{1}$ y Tommaso Dorigo $^{2}$ El origen de la $5\sigma$ El origen del umbral se encuentra en los primeros trabajos de la física de partículas de los años 60, cuando se investigaron numerosos histogramas de experimentos de dispersión y se buscaron picos o protuberancias que pudieran indicar alguna partícula recién descubierta. El umbral es una regla aproximada para tener en cuenta las múltiples comparaciones que se realizan.

Ambos autores hacen referencia a un artículo de Rosenfeld de 1968 $^3$ que trataba de la cuestión de si existen o no mesones y bariones lejanos, para lo cual varios $4 \sigma$ efectos cuando se miden. El artículo respondía negativamente a la pregunta argumentando que el número de reclamaciones publicadas se corresponde con el número de fluctuaciones estadísticamente esperado. Junto con varios cálculos que apoyan este argumento, el artículo promovía el uso de la $5\sigma$ nivel:

Rosenfeld: "Antes de pasar a estudiar los espectros de masas más lejanos en los que se han registrado baches en $(K\pi\pi)_{3/2},(\pi \rho)^{--}$ deberíamos decidir primero qué umbral de importancia exigir en 1968. Quiero mostrarles que, aunque los experimentadores probablemente deberían notar $3\sigma$ -efectos, los teóricos y fenomenólogos harían mejor en esperar a que el efecto alcance $>4\sigma$ ."

y más adelante en el documento (el énfasis es mío)

Rosenfeld: "Entonces, para repetir mi advertencia al principio de esta sección, estamos generando al menos 100.000 golpes potenciales al año, y deberíamos esperar varios $4\sigma$ y cientos de $3\sigma$ fluctuaciones. ¿Cuáles son las implicaciones? Para el teórico o el fenomenólogo la moraleja es sencilla; esperar $5\sigma$ efectos".

Tommaso parece ser cuidadoso al afirmar que todo comenzó con el artículo de Rosenfeld

Tommaso: "Sin embargo, hay que tener en cuenta que el artículo se escribió en 1968, pero el criterio estricto de cinco desviaciones estándar para las demandas de descubrimiento no se adoptó en los años setenta y ochenta. Por ejemplo, no se utilizó el criterio de cinco sigmas para el descubrimiento de los bosones W y Z, que les valió a Rubbia y Van der Meer el Premio Nobel de Física en 1984".

Pero en los años 80 el uso de $5\sigma$ se extendió. Por ejemplo, el astrónomo Steve Schneider $^4$ menciona en 1989 que es algo que se está enseñando (el énfasis es mío en la cita de abajo):

Schneider: "Con frecuencia se citan "niveles de confianza" del 95% o el 99% para datos aparentemente discrepantes, pero esto equivale a sólo dos o tres sigmas estadísticos. Me enseñaron a no creer en nada inferior a cinco sigma que, si lo piensas, es un requisito absurdamente estricto, algo así como un nivel de confianza del 99,9999%. Pero, por supuesto, ese límite se utiliza porque el tamaño real de sigma casi nunca se conoce. Hay demasiadas variables libres en la astronomía que no podemos controlar o no conocemos".

Sin embargo, en el campo de la física de partículas, muchas publicaciones todavía se basan en $4\sigma$ discrepancias hasta finales de los 90. Esto sólo cambió en $5\sigma$ a principios del siglo XXI. Probablemente se prescriba como guía para las publicaciones en torno a 2003 (véase el prólogo del libro de Franklin Shifting Standards $^5$ )

Franklin: En 2003 el criterio de 5 desviaciones estándar para la "observación de" parece haber entrado en vigor

...

Un miembro de la colaboración de BaBar recuerda que, más o menos en esta época, los editores de la revista Physical Review Letters


Uso moderno

Actualmente, el $5\sigma$ El umbral es una norma de libro. Por ejemplo, aparece como un artículo estándar en physics.org $^6$ o en algunos trabajos de Glen Cowan, como la sección de estadística de la Review of Particle Physics del grupo de datos de partículas $^7$ (aunque con varias notas secundarias críticas)

Glen Cowan: A menudo, en la HEP, el nivel de significación en el que se dice que un efecto es un descubrimiento es $Z = 5$ es decir, un $5\sigma$ correspondiente a un valor p de $2.87 \times 10^{−7}$ . Sin embargo, el grado real de creencia en la presencia de un nuevo proceso dependerá en general también de otros factores, como la verosimilitud de la hipótesis de la nueva señal y el grado en que puede describir los datos, la confianza en el modelo que ha conducido al valor p observado y las posibles correcciones de las observaciones múltiples de las que uno se centra en el valor p más pequeño obtenido (el "efecto de buscar en otra parte").

El uso de la $5\sigma$ nivel se atribuye ahora a 4 razones:

  • Historia basándose en la práctica se encontró que $5\sigma$ es un buen umbral. (cosas exóticas parece que ocurra al azar, incluso entre $3\sigma$ a $4\sigma$ como recientemente el Exceso de difotón de 750 GeV )

  • El efecto de buscar en otra parte (o el comparaciones múltiples ). Ya sea porque se prueban múltiples hipótesis, o porque los experimentos se realizan muchas veces, la gente se ajusta a esto (muy aproximadamente) ajustando el límite a $5\sigma$ . Esto se relaciona con el argumento de la historia.

  • Efectos sistemáticos e incertidumbre en $\sigma$ a menudo la incertidumbre del resultado del experimento no es bien conocida. La página web $\sigma$ se deriva, pero la derivación incluye suposiciones débiles como la ausencia de efectos sistemáticos, o la posibilidad de ignorarlos. Aumentar el umbral parece ser una forma de protegerse contra estos eventos. (Sin embargo, esto es un poco extraño. El cálculo $\sigma$ no tiene relación con el tamaño de los efectos sistemáticos y la lógica se rompe, un ejemplo es el "descubrimiento" de neutrinos superlumínicos que se informó de que tenía un $6\sigma$ importancia).

  • Las afirmaciones extraordinarias requieren pruebas extraordinarias Los resultados científicos se comunican de forma frecuentista, por ejemplo, utilizando intervalos de confianza o valores p. Sin embargo, a menudo se interpretan de forma bayesiana. El sitio web $5\sigma$ Se alega que el nivel de la misma es lo que explica esto.

Actualmente se han escrito varias críticas sobre el $5\sigma$ umbral de Louis Lyons ${^{8,}}$$^9$ y también los artículos mencionados anteriormente de Robert D Cousins $^{1}$ y Tommaso Dorigo $^{2}$ proporcionar una crítica.


Otros campos

Es interesante observar que muchos otros campos científicos no tienen umbrales similares o, de alguna manera, no se ocupan de la cuestión. Imagino que esto tiene un poco de sentido en el caso de los experimentos con humanos, donde es muy costoso (o imposible) ampliar un experimento que dio una significación de 0,05 o 0,01.

El resultado de no tener en cuenta estos efectos es que más de la mitad de los resultados publicados pueden ser erróneos o al menos no son reproducibles (Esto ha sido argumentado para el caso de la psicología por Monya Baker $^{10}$ y creo que hay muchos otros que han presentado argumentos similares. Personalmente creo que la situación puede ser aún peor en la ciencia de la nutrición). Y ahora, la gente de otros campos además de la física está pensando en cómo deberían tratar este tema (el caso de la medicina/farmacología $^{11}$ ).


  1. Cousins, R. D. (2017). La paradoja de Jeffreys-Lindley y los criterios de descubrimiento en la física de altas energías. Synthese, 194(2), 395-432. enlace arxiv

  2. Dorigo, T. (2013) Desmitificando el criterio de los Cinco Sigmas, de science20.com 2019-03-07

  3. Rosenfeld, A. H. (1968). ¿Existen mesones o bariones lejanos? fuente web: escholarship

  4. Burbidge, G., Roberts, M., Schneider, S., Sharp, N., & Tifft, W. (1990, noviembre). Panel de discusión: Redshift related problems. En NASA Conference Publication (Vol. 3098, p. 462). enlace a la fotocopia en harvard.edu

  5. Franklin, A. (2013). Shifting standards: Experimentos en física de partículas en el siglo XX. University of Pittsburgh Press.

  6. ¿Qué significan las 5 sigmas? de physics.org 2019-03-07

  7. Beringer, J., Arguin, J. F., Barnett, R. M., Copic, K., Dahl, O., Groom, D. E., ... & Yao, W. M. (2012). Review of particle physics. Physical Review D-Particles, Fields, Gravitation and Cosmology, 86(1), 010001. (sección 36.2.2. Pruebas de significación, página 394, enlace aps.org )

  8. Lyons, L. (2013). Discovering the Significance of 5 sigma. arXiv preprint arXiv:1310.1284. enlace arxiv

  9. Lyons, L. (2014). Statistical Issues in Searches for New Physics. arXiv preprint. enlace arxiv

  10. Baker, M. (2015). Más de la mitad de los estudios de psicología no superan la prueba de reproducibilidad. Nature News. de la naturaleza.com 2019-03-07

  11. Horton, R. (2015). Fuera de línea: ¿qué es el 5 sigma de la medicina? The Lancet, 385(9976), 1380. de thelancet.com 2019-03-07

4voto

Brettski Puntos 5485

Por una razón totalmente diferente a la de la física, hay otros campos con alfas mucho más estrictas cuando se dedican a la comprobación de hipótesis. La Epidemiología Genética se encuentra entre ellos, especialmente cuando utilizan el "GWAS" (Estudio de Asociación de Todo el Genoma) para buscar diversos marcadores genéticos de enfermedades.

Dado que un estudio GWAS es un masiva En el ejercicio de las pruebas de hipótesis múltiples, las técnicas de análisis más avanzadas se construyen todas ellas en torno a alfas mucho más estrictas que el 0,05. Es probable que otras técnicas de estudio de "selección de candidatos" que sigan la estela de los estudios genómicos hagan lo mismo.

3voto

El nivel es tan alto para evitar anuncios prematuros de noticias que luego resultan ser espurias. Para más información sobre este tema, véase

https://physics.stackexchange.com/questions/8752/standard-deviation-in-particle-physics?rq=1

https://physics.stackexchange.com/questions/31126/how-many-sigma-did-the-discovery-of-the-w-boson-have

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X