40 votos

El tamaño del efecto como la hipótesis para pruebas de significación

Hoy en día, en la Cruz Validado Journal Club (¿por qué no estás ahí?), @mbq preguntó:

¿Crees que nosotros (los datos científicos) saber qué importancia los medios? Y cómo se relaciona con nuestra confianza en nuestros resultados?

@Michelle respondió como algunos (incluido yo) suele hacer:

Me estoy dando cuenta que el concepto de significado (basado en los valores de p) menos útil como sigo en mi carrera. Por ejemplo, yo puedo ser el uso de conjuntos de datos sumamente grandes, así que todo es estadísticamente significativa ($p<.01$)

Esta es probablemente una pregunta estúpida, pero no es el problema, la hipótesis que se prueba? Si usted prueba la hipótesis nula "a es igual que B", entonces usted sabe que la respuesta es "No". Conjuntos de datos más grandes sólo le traerá más cerca de lo que inevitablemente conclusión verdadera. Creo que fue de Deming, que una vez dio un ejemplo con la hipótesis de que "el número de pelos en la parte derecha de los de un cordero, es igual al número de pelos en su lado izquierdo." Bueno, por supuesto que no lo es.

Una mejor hipótesis sería Un "no difiere de B por más que mucho." O, en el cordero ejemplo, "el número de pelos a los lados de un cordero no difieren en más de un X%".

¿Esto tiene sentido?

26voto

Sean Hanley Puntos 2428

Tan lejos como pruebas de significación va (o cualquier otra cosa que se hace esencialmente lo mismo como pruebas de significación), durante mucho tiempo he pensado que el mejor enfoque en la mayoría de las situaciones es probable que la estimación del tamaño del efecto estandarizado, con un 95% de intervalo de confianza acerca de que el tamaño del efecto. No hay nada realmente nuevo--matemáticamente puede shuffle de ida y vuelta entre ellos, si el valor de p para un 'nil' null <.05, entonces 0 se encuentran fuera de un 95% CI, y viceversa. La ventaja de esto, en mi opinión, es psicológica; es decir, hace más destacadas de la información que existe, pero que la gente no puede ver cuando sólo los valores de p son reportados. Por ejemplo, es fácil ver que un efecto es muy "significativo", pero ridículamente pequeño; o "no significativo", pero sólo porque las barras de error son enormes, mientras que el efecto estimado es más o menos lo que esperaba. Estos pueden ser emparejados con raw de valores y su CI.

Ahora, en muchos campos de la cruda valores son intrínsecamente significativa, y reconozco que plantea la cuestión de si es todavía vale la pena para calcular el tamaño del efecto de las medidas, dado que ya tenemos los valores como de los medios y de las laderas. Un ejemplo podría estar buscando en el retraso en el crecimiento; sabemos lo que significa un 20 años de edad, blanco, masculino para ser 6 +/- 2 pulgadas más corto (es decir, 15 +/- 5 cm), que de otra manera, así que ¿por qué mencionar $d=-1.6\pm.5$? Tiendo a pensar que todavía puede ser de valor en los informes de ambos, y las funciones pueden ser escritas para el cálculo de ambos, de modo que es muy poco de trabajo extra, pero reconozco que las opiniones varían. En cualquier caso, yo sostengo que el punto de las estimaciones de los intervalos de confianza reemplazar los valores de p como la primera parte de mi respuesta.

Por otro lado, creo que una pregunta más grande es 'es la cosa que pruebas de significación hace lo que realmente queremos?' Creo que el verdadero problema es que para la mayoría de la gente el análisis de los datos (es decir, los profesionales no estadísticos), pruebas de significación puede llegar a ser la totalidad de los análisis de datos. A mí me parece que la cosa más importante es tener una forma de principios para pensar acerca de lo que está pasando con nuestros datos, y la hipótesis nula pruebas de significación es, en el mejor, una muy pequeña parte de eso. Permítanme darles un ejemplo imaginario (reconozco que esto es una caricatura, pero, por desgracia, me temo que es un poco plausible):

Bob lleva a cabo un estudio, la recopilación de datos sobre algo-o la otra -. Él espera que los datos siguen una distribución normal, la agrupación bien alrededor de algún valor, y tiene la intención de llevar a cabo una one-sample t-test para ver si sus datos son "significativamente diferente" de algunos pre-especificado valor. Después de la recolección de la muestra, se comprueba para ver si sus datos son normalmente distribuida, y descubre que no lo son. En su lugar, lo hacen no se han pronunciado bulto en el centro, pero son relativamente altos durante un determinado intervalo y, a continuación, trail con una larga cola izquierda. Bob preocupaciones acerca de lo que debe hacer para asegurarse de que su prueba es válida. Él termina haciendo algo (por ejemplo, una transformación, una prueba no paramétrica, etc.), y a continuación, informa de un estadístico de prueba y un p-valor.

Espero que esto no salga igual de desagradable. No me refiero a burlarse de nadie, pero creo que algo como esto sucede de vez en cuando. Si este escenario se producen, todos estamos de acuerdo que es un mal análisis de los datos. Sin embargo, el problema no es que el estadístico de prueba o el p-valor es un error, podemos plantear que los datos fueron manejados adecuadamente en ese sentido. Yo diría que el problema es que Bob está involucrado en lo de Cleveland llamado "rote el análisis de los datos". Él parece creer que el único punto es que para obtener el derecho de p-valor, y piensa muy poco acerca de sus datos fuera de perseguir ese objetivo. Él incluso podría haber cambiado a mi sugerencia y reportó un tamaño del efecto estandarizado con un 95% de intervalo de confianza, y no han cambiado lo que yo veo como el mayor problema (esto es a lo que me refería haciendo "esencialmente la misma cosa" por un medio diferente). En este caso concreto, el hecho de que los datos no se vea de la forma que él esperaba (es decir, no eran normales) es real la información, es muy interesante, y muy posiblemente importante, pero que la información es esencialmente simplemente arrojado. Bob no reconocer esto, porque el enfoque en las pruebas de significación. A mi mente, que es el verdadero problema con las pruebas de significación.

Permítanme hablar un par de otras perspectivas que se han mencionado, y quiero ser muy claro que yo no estoy criticando a nadie.

  1. Se menciona con frecuencia que muchas personas realmente no entienden los valores de p (por ejemplo, pensando que ellos son la probabilidad es de null cierto), etc. A veces se argumenta que, si la gente use el enfoque Bayesiano, estos problemas desaparecerían. Yo creo que la gente pueden enfoque Bayesiano en el análisis de datos de una manera que es tan incurious y mecánica. Sin embargo, creo que la incomprensión del significado de los valores de p sería menos dañina si no se pensó, obteniendo un valor de p era el objetivo.
  2. La existencia de 'big data' es generalmente ajenos a este problema. Big data sólo hace que sea obvio que la organización análisis de los datos alrededor de la 'importancia' no es un método útil.
  3. No creo que el problema es con la hipótesis de que está siendo probado. Si la gente sólo quería ver si el valor estimado es fuera de un intervalo, en lugar de si es igual a un valor de punto, muchos de los mismos problemas que podrían surgir. (De nuevo, quiero ser claro sé que no eres 'Bob'.)
  4. Para el registro, quiero mencionar que mi propia sugerencia desde el primer párrafo, ¿ no abordar el problema, como he tratado de señalar.

Para mí, este es el meollo de la cuestión: Lo que realmente queremos es una forma de principios para pensar acerca de lo que pasó. Lo que significa que en cualquier situación dada no es cortada y se seca. Cómo impartir que a los estudiantes en los métodos de la clase no es ni clara ni fácil. Pruebas de significación tiene mucha inercia y tradición detrás de él. En las estadísticas de la clase, es claro que lo que debe ser enseñado y cómo. Para estudiantes y profesionales se hace posible desarrollar un esquema conceptual para la comprensión del material, y una lista de comprobación / diagrama de flujo (he visto algunos!) para la realización del análisis. Pruebas de significación, naturalmente, puede evolucionar hacia la memorización de análisis de datos sin que nadie tonto o vago o mal. Ese es el problema.

19voto

Zizzencs Puntos 1358

¿Por qué insistimos en cualquier formulario de prueba de hipótesis en las estadísticas?

En el maravilloso libro de las Estadísticas de Principios Argumento de Robert Abelson argumenta que el análisis estadístico es parte de una serie de principios argumento sobre el tema en cuestión. Él dice que, en lugar de ser evaluados de la hipótesis se rechaza o no se rechaza (o incluso aceptado!?!) debemos evaluar, basándose en lo que él llama la MAGIA criterios:

Magnitud - ¿cómo es de grande? Articulación - Está llena de excepciones? Es claro? Generalidad - ¿Cómo generalmente se aplica? Interestingness - ¿nos importa el resultado? Credibilidad - ¿Podemos creer?

Mi reseña del libro en mi blog

13voto

Ηλίας Puntos 109

Tu última pregunta no tiene sentido: hoy en día sensato industrial estadísticos no realizar la prueba de diferencia significativa, pero significativos de la equivalencia, es decir, la prueba de una hipótesis nula de la forma $H_0\colon \{|\mu_1-\mu_2|>\epsilon\}$, donde $\epsilon$ es fijado por el usuario y de hecho está relacionado con la noción de "efecto tamaño". El más común de equivalencia de la prueba es el llamado TOST. Sin embargo, el TOST estrategia tiene como objetivo demostrar que dos medios $\mu_1$ y $\mu_2$ son significativamente $\epsilon$-cerca de, por ejemplo, $\mu_1$ es el valor medio de algún método de medición y $\mu_2$ para otro método de medición, y en muchas situaciones es más sensible para evaluar la equivalencia entre las observaciones más que el medio. Para ello nos podría llevar a cabo la prueba de hipótesis en cantidades tales que $\Pr(|X_1-X_2|>\epsilon)$, y tales pruebas de hipótesis se relaciona con intervalos de tolerancia.

6voto

John Richardson Puntos 1197

Tradicionales pruebas de hipótesis informarle si existe evidencia estadísticamente significativa para la existencia de un efecto, mientras que lo que a menudo quieren saber acerca de la existencia de indicios de prácticamente un efecto significativo.

Sin duda es posible formar Bayesiano "prueba de hipótesis" con un mínimo del tamaño del efecto (si mal no recuerdo hay un ejemplo de esto en David MacKay, el libro de "Teoría de la Información, la Inferencia y el Aprendizaje de Algoritmos", la voy a ver hasta cuando tengo un momento.

La normalidad de las pruebas es otro buen ejemplo, por lo general, saben que los datos no son realmente distribuido normalmente, estamos haciendo pruebas para ver si hay evidencia de que esto no es una aproximación razonable. O pruebas para el sesgo de una moneda, sabemos que es poco probable que sea totalmente sesgada como es assymetric.

6voto

Eero Puntos 1612

Mucho de esto se reduce a lo que la pregunta en realidad estás preguntando, ¿cómo el diseño de su estudio, e incluso a lo que te refieres por igual.

Corrí accros un poco interesante insertar en el British Medical Journal, una vez que habló acerca de lo que la gente interpreta ciertas fases a decir. Resulta que "siempre" se puede decir que sucede algo tan bajo como el 91% del tiempo (BMJ VOLUMEN 333 26 de AGOSTO de 2006 página 445). Así que tal vez igual y equivalente (o dentro de X% para un cierto valor de X) podría ser pensado para significar la misma cosa. Y permite que el equipo de una simple igualdad, con R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

Ahora un puro matemático utilizando precisión infinita podría decir que esos 2 valores no son iguales, pero R se dice que son, y para la mayoría de los casos prácticos que sería (Si usted se ofreció a darme $\$$(1e+5 + 1e-50), pero la cantidad terminó siendo $\$$(1e+5 - 1e-50) yo no iba a rechazar el dinero, ya que difieren de lo que se prometió).

Además, si nuestra hipótesis alternativa es de $H_a: \mu > \mu_0$ nos escriben a menudo el valor null como $H_0: \mu=\mu_0$ aunque técnicamente el real nulo es de $H_0: \mu \le \mu_0$, pero trabajamos con la igualdad como nulo ya que si podemos demostrar que $\mu$ es mayor que $\mu_0$ entonces también sabemos que es más grande que todos los valores de menos de $\mu_0$. Y no es una prueba de dos colas realmente sólo 2 de una cola pruebas? Después de todo, ¿de verdad decir que $\mu \ne \mu_0$ pero se niegan a decir de qué lado de la $\mu_0$ $\mu$ es? Esto es en parte por qué hay una tendencia hacia el uso de intervalos de confianza en lugar de los valores de p cuando sea posible, si el intervalo de confianza para $\mu$ incluye $\mu_0$, a continuación, si bien no puede ser más dispuestos a creer que $\mu$ es exactamente igual a $\mu_0$, no puedo decir con certeza de qué lado de la $\mu_0$ $\mu$ mentiras, lo que significa que bien podría ser iguales para fines prácticos.

Mucho de esto viene de hacer la pregunta correcta y el diseño de estudio de que se trate. Si usted termina con suficientes datos para mostrar que prácticamente insignificante diferencia es estadísticamente significativa, entonces usted tiene recursos desperdiciados conseguir que gran parte de los datos. Habría sido mejor para decidir qué una diferencia significativa sería y se diseñó el estudio para darle el poder suficiente para detectar la diferencia, pero no menor.

Y si realmente queremos hilaba, ¿cómo podemos definir qué partes del cordero está en el derecho y que están a la izquierda? Si lo definimos por una línea que, por definición, tiene el mismo número de pelos en cada lado, a continuación, la respuesta a la anterior pregunta es: "por Supuesto que lo es".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X