Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

62 votos

¿Qué significa "los científicos se levantan contra la significación estadística"? (Comentario en la naturaleza)

El título del Comentario en la Naturaleza, los Científicos se levantan en contra de la significación estadística comienza con:

Valentin Amrhein, Lijadora de Groenlandia, Blake McShane y más de 800 signatarios llamado para terminar con exagerada de reclamaciones y el despido de posiblemente crucial efectos.

y más tarde, contiene afirmaciones como:

De nuevo, no estamos abogando por una prohibición de los valores de P, los intervalos de confianza o de otras medidas estadísticas - sólo que no debemos tratar de modo tajante. Esto incluye dichotomization como estadísticamente significativo o no, así como la categorización basada en otras medidas estadísticas como factores de Bayes.

Creo que puedo entender que la imagen de abajo no decir que los dos estudios no están de acuerdo porque uno se "descarta" ningún efecto, mientras que el otro no. Pero el artículo parece ir en mucha más profundidad de lo que yo puedo entender.

Hacia el final se parece ser un resumen en cuatro puntos. Es posible resumir estos, incluso en términos más sencillos para aquellos de nosotros que leer las estadísticas en lugar de escribir?

Al hablar acerca de la compatibilidad de los intervalos, tener en cuenta cuatro cosas.

  • En primer lugar, porque el intervalo da los valores más compatible con los datos, dada la hipótesis, esto no significa que los valores fuera de ella son incompatibles; sólo son menos compatibles...

  • En segundo lugar, no todos los valores en el interior son igualmente compatibles con los datos, dados los supuestos...

  • Tercero, como la de 0.05 umbral de la que procede, el defecto del 95% se utiliza para calcular los intervalos es de por sí una convención arbitraria...

  • Último, y lo más importante de todo, ser humilde: la compatibilidad de las evaluaciones de la bisagra en la corrección de los supuestos estadísticos utilizados para calcular el intervalo de...


Nature: Scientists rise up against statistical significance

68voto

Ingolifs Puntos 16

Los tres primeros puntos, como lo que puedo decir, son una variación de un único argumento.

Los científicos a menudo el tratamiento de la incertidumbre de las mediciones (12±1, por ejemplo) como distribuciones de probabilidad que se parecen a esto:

uniform probability distribution

Cuando en realidad, ellos son mucho más propensos a mirar como esta: enter image description here

Como un ex químico, puedo confirmar que muchos de los científicos con los no-matemáticos fondos (principalmente no físicos, químicos y biólogos) realmente no entiendo cómo la incertidumbre (o de error, como ellos lo llaman) se supone que funciona. Recuerdan un tiempo en la licenciatura de física donde tal vez tuvo uso de ellos, posiblemente, incluso de tener que calcular un compuesto de error a través de diferentes medidas, pero nunca realmente lo entiende . Yo también era culpable de esto, y supone que todas las medidas que había que entrar dentro de la ± intervalo. Sólo recientemente (y de fuera de la academia), hice saber que el error de las mediciones por lo general se refieren a una cierta desviación estándar, no un límite absoluto.

Así que para romper los puntos numerados en el artículo:

  1. Las mediciones fuera de la CI todavía tienen la oportunidad de suceder, porque la real (probabilidad gaussiana) la probabilidad es cero no existe (o en cualquier lugar para esa materia, a pesar de que se conviertan en minúscula cuando llegues lejos). Si los valores después de la ± do, de hecho, representan uno s.d., a continuación, todavía hay un 32% de probabilidad de un punto de datos que caen fuera de ellos.

  2. La distribución no es uniforme (flat cubierto, como en el primer gráfico), es un pico. Usted tiene más probabilidades de obtener un valor en la media de lo que está en los bordes. Es como tirar un montón de dados, en lugar de una sola morir.

  3. El 95% es arbitrario de corte, y que coincide casi exactamente con dos desviaciones estándar.

  4. Este punto es más un comentario sobre honestidad académica en general. Una realización que tuve durante mi tesis es que la ciencia no es algo abstracto fuerza, es el acumulado de los esfuerzos de la gente tratando de hacer ciencia. Estas son las personas que están tratando de descubrir cosas nuevas sobre el universo, pero al mismo tiempo también están tratando de mantener a sus hijos de la fed y mantener sus puestos de trabajo, que por desgracia en los tiempos modernos significa alguna forma de publicar o perecer está en juego. En realidad, los científicos dependen de los descubrimientos que son a la vez verdaderas y muy interesante, porque sin interés los resultados no resultan en publicaciones.

Umbrales arbitrarios tales como p<0.05 a menudo puede ser auto-perpetuación, especialmente entre aquellos que no entienden completamente las estadísticas y sólo necesitas un pasa/falla de sello en sus resultados. Como tal, la gente a veces medio en broma, hablar de 'ejecución de la prueba nuevamente hasta llegar ap<0.05'. Puede ser muy tentador, sobre todo si un Tel. D/subvención/empleo está montado sobre el resultado, para estos resultados marginales a ser, movió alrededor hasta que el deseado p=0.0498 se muestra en el análisis.

Tales prácticas pueden ser perjudiciales para la ciencia como un todo, especialmente si se hace ampliamente, todos en la búsqueda de un número que está en los ojos de la naturaleza, sin sentido. Esta parte, en efecto, está exhortando a los científicos a ser honesto acerca de sus datos y de trabajo, incluso cuando el que la honestidad es para su propio perjuicio.

21voto

Lo voy a intentar.

  1. El intervalo de confianza (que se cambie el nombre de la compatibilidad de intervalo) muestra los valores de los parámetros que son más compatibles con los datos. Pero eso no significa que los valores fuera del intervalo son absolutamente incompatibles con los datos.
  2. Los valores de cerca de la mitad de la confianza (compatibilidad) intervalo son más compatibles con los datos de valores cerca de los extremos del intervalo.
  3. El 95% es sólo una convención. Usted puede calcular el 90% o el 99% o cualquier% de los intervalos.
  4. La confianza de los/compatibilidad intervalos son útiles solo si el experimento se ha realizado correctamente, si el análisis se realiza de acuerdo a un plan preestablecido, y los datos se ajustan con la asunción de los métodos de análisis. Si tienes malos datos analizados mal, la compatibilidad de intervalo no es significativa y útil.

20voto

Leonhard Puntos 375

Gran parte del artículo y la figura que incluyen hacer una muy simple punto:

La falta de evidencia de un efecto no es evidencia de que no existe.

Por ejemplo,

"En nuestro estudio, los ratones que recibieron el cianuro no morir en estadísticamente-tasas significativamente más altas" no es evidencia para la afirmación de "el cianuro no tiene ningún efecto sobre el ratón muertes".

Supongamos que le damos dos ratones con una dosis de cianuro y uno de ellos muere. En el grupo de control de ratones de los dos, ni muere. Dado que el tamaño de la muestra fue muy pequeño, este resultado no es estadísticamente significativo (p>0.05). Así que este experimento no muestran un efecto estadísticamente significativo de cianuro en la vida de ratones. Deberíamos concluir que el cianuro no tiene ningún efecto en los ratones? Obviamente que no.

Pero este es el error que los autores afirman los científicos, de forma rutinaria.

Por ejemplo, en la figura, la línea roja podría surgir a partir de un estudio en muy pocos ratones, mientras que la línea azul podría surgir desde el mismo estudio, pero en muchos ratones.

Los autores sugieren que, en lugar de utilizar los tamaños del efecto y los valores de p, los científicos en lugar de describir el abanico de posibilidades que son más o menos compatibles con sus resultados. En nuestros dos-ratón experimento, se tendría que escribir que nuestros resultados son compatibles con cianuro ser muy venenosas y no venenosas. En un 100-ratón experimento, se puede encontrar un intervalo de confianza intervalo de [60%,70%] fatalidad con una estimación de punto de 65%. A continuación, se debe escribir el que nuestros resultados sería más compatible con la presunción de que esta dosis mata a 65% de los ratones, pero nuestros resultados también sería algo compatible con porcentajes tan bajos como 60 o 70, y que nuestros resultados serían menos compatible con una verdad fuera de ese rango. (También deberíamos describir lo que los supuestos estadísticos hacemos para calcular estos números).

10voto

digitig Puntos 223

La gran XKCD hice este dibujo hace un tiempo, que ilustra el problema. Si los resultados de la con P>0.05 son simplemente tratados como probar una hipótesis - y muy a menudo son y 1 en 20 hipótesis de manera comprobada en realidad serán falsos. Del mismo modo, si P<0.05 es tomado como refutar una hipótesis, a continuación, 1 en 20 verdaderas hipótesis va a ser mal rechazado. Los valores de P no te dicen si una hipótesis es verdadera o falsa, ellos te dicen si una hipótesis es probablemente verdadero o falso. Parece que el que se hace referencia en el artículo patadas contra el todo-demasiado-común ingenua interpretación.

7voto

Chemical Engineer Puntos 181

tl;dr- Es fundamentalmente imposible demostrar que las cosas no están relacionados; estadísticas sólo puede ser utilizado para mostrar cuando las cosas están relacionadas. A pesar de este hecho bien establecido, la gente malinterpreta con frecuencia una falta de significación estadística para implicar una falta de relación.


Un buen método de cifrado debe generar un texto cifrado que, como mucho, ya que un atacante puede decir, no conlleva ninguna relación estadística para el mensaje protegido. Porque si un atacante puede determinar algún tipo de relación, luego se puede obtener información acerca de sus mensajes protegidos por sólo mirar a la ciphertexts – que es una Cosa MalaTM.

Sin embargo, el texto cifrado y su correspondiente texto plano 100% determinar cada uno de los otros. Así que incluso si el mundo de los mejores matemáticos no se puede encontrar ninguna relación significativa, no importa cuanto lo intenten, todavía nos obviamente saben que la relación no está sólo ahí, sino que es completamente y totalmente determinista. Este determinismo puede existir aun cuando sabemos que es imposible encontrar una relación.

A pesar de esto, todavía podemos conseguir a la gente que va a hacer cosas como:

  1. Elija alguna relación que quieren "refutar".

  2. Hacer algún estudio sobre lo que es insuficiente para detectar la supuesta relación.

  3. Informe de la falta de una relación estadísticamente significativa.

  4. Giro en una falta de relación.

Esto conduce a todo tipo de "estudios científicos" que los medios de comunicación (falsamente) informe como refutar la existencia de alguna relación.

Si desea diseñar su propio estudio en torno a esto, hay un montón de maneras de hacerlo:

  1. Perezoso de investigación:
    La manera más fácil, por el momento, es solamente ser increíblemente perezoso sobre ella. Es así, como desde la que figura relacionado en la pregunta:
    .
    Usted puede conseguir fácilmente que `` {\small{\color{darkred}{\begin{array}{c} \text{'Non-significant' study} \\[-10px] \left(\text{high}~P~\text{value}\right) \end{array}}}} " por el simple hecho de tener tamaños de muestra pequeños, lo que permite un montón de ruido, y varios otros perezoso cosas. De hecho, si eres tan vago como para no recoger ninguna de datos, entonces usted ya está hecho!

  2. Perezoso análisis:
    Por alguna tonta razón, algunas personas piensan que un coeficiente de correlación de Pearson de 0 significa que "no hay correlación". Lo cual es cierto, en un sentido muy limitado. Pero, aquí está un par de casos para observar:
    \hspace{50px}.
    Esto es, no puede ser un "lineal" de la relación, pero, obviamente, no puede ser más compleja. Y no necesita ser "cifrado"de nivel complejo, sino más bien "es en realidad sólo un poco de una línea ondulada" o "hay dos correlaciones" o lo que sea.

  3. Perezoso de responder:
    En el espíritu de la anterior, me voy a detener aquí. Para, ya sabes, ser perezoso!

Pero, en serio, el artículo lo resume bien en:

Vamos a ser claros acerca de lo que debe parar: nunca debemos concluir "no hay diferencia" o "ninguna asociación" sólo porque un valor de P es mayor que un umbral, tales como 0.05 o, de manera equivalente, porque el intervalo de confianza incluye el cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X