17 votos

Aceptación de hipótesis nula

Esta es una pregunta de debate en la intersección de las estadísticas y de otras ciencias. Yo a menudo enfrentan el mismo problema: los investigadores en el campo tienden a decir que no hay ningún efecto cuando el p-valor no es menor que el nivel de significación. En el principio, me respondió a menudo esto no es como la prueba de hipótesis obras. Dada la frecuencia con que esto surge la pregunta, me gustaría hablar de este tema con más experiencia estadísticos.

Vamos a considerar un artículo reciente en la revista científica de "el mejor grupo editorial" la Naturaleza de las Comunicaciones de la Biología (hay varios ejemplos, pero vamos a centrarnos en uno)

Los investigadores interpretan una relación no es estadísticamente significativa resultado de la siguiente manera:

Así crónica moderada restricción calórica puede extender la vida útil y mejorar la salud de un primate, pero afecta a la materia gris del cerebro integridad sin afectar cognitivas actuaciones.

Prueba:

Sin embargo, las actuaciones en el laberinto Barnes tarea no fueron diferentes entre el control y la restricción de calorías de los animales (LME: F = 0.05, p = 0.82; Fig. 2a). Del mismo modo, la evolución espontánea de la tarea de alternancia ¿ no revelan ninguna diferencia entre el control y la restricción de calorías animales (LME: F = 1.63, p = 0,22; Fig. 2b).

Los autores también sugieren que la explicación de la ausencia de efecto - pero el punto clave no es la explicación sino la afirmación de sí mismo. Los grácos se ven significativamente diferentes "a ojo" para mí (Figura 2).

Por otra parte, los autores no tienen en cuenta el conocimiento previo:

los nocivos efectos de la restricción calórica sobre el rendimiento cognitivo se han reportado para las ratas y cerebral y las funciones emocionales en los seres humanos

Puedo entender el mismo reclamo por el enorme tamaño de la muestra (sin efecto = no hay prácticamente efecto significativo), sino en la particular situación compleja se utilizaron las pruebas y no es obvio para mí de cómo realizar el cálculo de la potencia.

Preguntas:

  1. Hice pasar por alto detalles que hacen de sus conclusiones válidas?

  2. Teniendo en cuenta la necesidad de informe negativo de los resultados en la ciencia, como para demostrar que no es "la ausencia de resultado" (que tenemos con $p > \alpha$), pero "resultado negativo (por ejemplo, no hay ninguna diferencia entre los grupos)" el uso de las estadísticas? Entiendo que para grandes tamaños de muestra incluso las pequeñas variaciones en null provocar rechazo, pero supongamos que tenemos los datos ideales y aún debe demostrar que null es prácticamente cierto.

  3. Debe estadísticos siempre insisten en que matemáticamente correctas conclusiones como "tener este poder no fueron capaces de detectar el efecto de tamaño significativo"? Los investigadores de otros campos desagrada tales formulaciones de resultados negativos.

Yo estaría encantado de escuchar cualquier pensamiento sobre el problema y he leído y entendido las preguntas relacionadas con este sitio web. No hay una respuesta clara a las preguntas 2)-3) desde el punto de vista de las estadísticas, pero me gustaría entender cómo esta pregunta tiene que ser contestada en caso de diálogo interdisciplinario.

UPD: me parece un buen ejemplo de resultado negativo es la 1ª etapa de ensayos médicos, de seguridad. Cuando los científicos pueden decidir que el medicamento es seguro? Supongo que comparar dos grupos y hacer estadísticas sobre este tipo de datos. Es allí una manera de decir que este medicamento es seguro? Cochrane utiliza exacta "ningún efecto secundario fueron encontrados", pero los médicos dicen que este medicamento es seguro. Cuando el equilibrio entre la precisión y la sencillez de la descripción de los mets, y podemos decir "no hay ninguna consecuencia para la salud"?

13voto

GenericTypeTea Puntos 27689

Hablando con el título de tu pregunta: nosotros nunca aceptamos la hipótesis nula, debido a que las pruebas de $H_{0}$ sólo proporciona la evidencia en contra de $H_{0}$ (es decir, las conclusiones son siempre con respecto a la hipótesis alternativa, se encontró evidencia de $H_{A}$ o su no pudo encontrar evidencia de $H_{A}$).

Sin embargo, se puede reconocer que hay diferentes tipos de hipótesis nula:

  • Usted probablemente ha aprendido acerca de una cara hipótesis nula de la forma $H_{0}: \theta \ge \theta_{0}$ $H_{0}: \theta \le \theta_{0}$

  • Usted probablemente ha aprendido acerca de dos caras, la hipótesis nula (aka dos colas hipótesis nula) de la forma $H_{0}: \theta = \theta_{0}$, o como sinónimo de $H_{0}: \theta - \theta_{0} = 0$ en el caso del ejemplo, y $H_{0}: \theta_{1} = \theta_{2}$, o como sinónimo de $H_{0}: \theta_{1} - \theta_{2} = 0$ en el caso de ejemplo. Sospecho que esta forma específica de la hipótesis nula es lo que tu pregunta es acerca de. Siguiente Reagle y Vinod, yo plazo de la hipótesis nula de esta forma positivista de la hipótesis nula, y hacer explícito con la notación $H^{+}_{0}$. Positivista de la hipótesis nula proporcionar, o no proporcionar la evidencia de la diferencia o la evidencia de un efecto. Positivista de la hipótesis nula tiene un omnibus formulario para $k$ grupos: $H_{0}^{+}: \theta_{i} = \theta_{j};$ para todos los $i,j \in \{1, 2, \dots k\};$ $\text{ and }i\ne j$.

  • Puede que ahora acaba de aprender acerca de la articulación de una cara hipótesis nula, que son hipótesis nula de esta forma $H_{0}: |\theta - \theta_{0}|\ge \Delta$ en el caso del ejemplo, y $H_{0}: |\theta_{1} - \theta_{2}|\ge \Delta$ en el caso del ejemplo, donde $\Delta$ es la mínima diferencia relevante que a usted le importa a priori (es decir, que decir de antemano que las diferencias más pequeñas que esto no importa). De nuevo, siguiendo Reagle y Vinod, yo plazo de la hipótesis nula de esta forma es negativista hipótesis nula, y hacer explícito con la notación $H^{-}_{0}$. Es negativista hipótesis nula proporcionar evidencia de equivalencia (en $\pm\Delta$), o la evidencia de la ausencia de un efecto (mayor que el de $|\Delta|$). Es negativista hipótesis nula tiene un omnibus formulario para $k$ grupos: $H_{0}^{-}: |\theta_{i} = \theta_{j}|\ge \Delta;$ para todos los $i,j \in \{1, 2, \dots k\};$ $\text{ and }i\ne j$ (Wellek, capítulo 7)

El muy fresco cosa a hacer es combinar las pruebas de diferencia con las pruebas de equivalencia. Esto se conoce como la relevancia de las pruebas, y lugares, tanto de la potencia estadística y el tamaño del efecto explícitamente dentro de las conclusiones de un examen, como se detalla en la descripción de la [tost] etiqueta. Considere lo siguiente: si usted rechazar $H_{0}^{+}$ es que debido a que existe un verdadero efecto de un tamaño que consideren pertinentes? O es porque el tamaño de la muestra era simplemente tan grande su prueba fue sobre-alimentado? Y si no se puede rechazar $H_{0}^{+}$, es que debido a que no existe un verdadero efecto, o debido a que el tamaño de la muestra era demasiado pequeña, y su prueba de poca potencia? La relevancia de las pruebas de abordar estas cuestiones en la cabeza -.

Hay un par de maneras de realizar las pruebas de equivalencia (si o no se puede combinar con las pruebas de diferencia):

  • Dos pruebas unilaterales (TOST) traduce el general es negativista hipótesis nula expresado anteriormente en dos específica a una cara hipótesis nula:
    • $H^{-}_{01}: \theta - \theta_{0} \ge \Delta$ (una muestra) o $H^{-}_{01}: \theta_{1} - \theta_{2} \ge \Delta$ (dos muestras)
    • $H^{-}_{02}: \theta - \theta_{0} \le -\Delta$ (una muestra) o $H^{-}_{01}: \theta_{1} - \theta_{2} \le -\Delta$ (dos muestras)
  • Uniformemente más potente de las pruebas de equivalencia, que tienden a ser mucho más aritméticamente sofisticados que los de TOST. Wellek es la referencia definitiva para estos.
  • Un intervalo de confianza de enfoque, creo que primero motivado por Schuirman, y refinados por otros, tales como Tryon.


Referencias Reagle, D. P. y Vinod, H. D. (2003). Inferencia para es negativista usando teoría numérica calculada rechazo de las regiones. La Estadística Computacional Y Análisis De Datos, 42(3):491-512.

Schuirmann, D. A. (1987). Una comparación de las dos pruebas unilaterales procedimiento y el enfoque de poder evaluar la equivalencia del promedio de la biodisponibilidad. Diario de Farmacocinética y Biofarmacia, 15(6):657-680.

Tryon, W. W. y Lewis, C. (2008). Un inferencial intervalo de confianza del método de establecimiento de estadística de equivalencia que corrige Tryon (2001) factor de reducción. Métodos Psicológicos, 13(3):272-277.

Tryon, W. W. y Lewis, C. (2009). La evaluación independiente de las proporciones de diferencia estadística, la equivalencia, la indeterminación, y trivial diferencia con inferencial de los intervalos de confianza. Revista de Educación y de Comportamiento de las Estadísticas, 34(2):171-189.

Wellek, S. (2010). La prueba Estadística de la Hipótesis de la Equivalencia y estudio de no inferioridad asignaron. Chapman and Hall/CRC Press, segunda edición.

9voto

Aksakal Puntos 11351

Se hace referencia a estándar de la inferencia práctica se enseña en las estadísticas de los cursos de:

  1. formulario de $H_0,H_a$
  2. establecer el nivel de significación $\alpha$
  3. comparar el valor p $\alpha$
  4. "rechazar $H_a$, acepte $H_a$" o "no se puede rechazar $H_0$"

Esto está muy bien, y es utilizado en la práctica. Incluso me atrevería a adivinar que este procedimiento podría ser obligatoria en algunos sectores regulados como productos farmacéuticos.

Sin embargo, esta no es la única manera y la inferencia estadística aplicada en la investigación y la práctica. Por ejemplo, echa un vistazo a este artículo: "la Observación de una nueva partícula en la búsqueda del bosón de Higgs del Modelo Estándar con el detector ATLAS en el LHC". El papel fue el primero en presentar las pruebas de la existencia del bosón de Higgs, en los llamados experimento ATLAS. Fue también uno de los documentos donde la lista de autores es tan larga como su contenido real :)

  • El documento no menciona ni $H_0$ ni $H_a$. El término "hipótesis" se utiliza, y se podía adivinar cuál era su $H_0$ leyendo el texto.
  • Se utiliza el término "significado", pero no como $\alpha$-umbral de significancia en el "estándar" de la inferencia. Simplemente expresar la distancia en desviaciones estándar, por ejemplo, "la observada local significados para mH = 125 GeV es de 2.7$\sigma$"
  • presentan "raw" los valores de p, y no ejecutar a través de "rechazar no rechazar" las comparaciones con los niveles de significación $\alpha$, como he escrito antes, que no utilizan la última
  • se presentan los intervalos de confianza a regular los niveles de confianza, tales como el 95%

He aquí cómo la conclusión formulada: "Estos resultados proporcionan evidencia concluyente para el descubrimiento de una nueva partícula con masa 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV." Las palabras "stat" se refiere a la estadística y la "sys" sistemática de las incertidumbres.

Así que, como ves no todo el mundo hace las cuatro paso el procedimiento que he descrito al principio de esta respuesta. Aquí, los investigadores muestran que el p-valor, sin pre-establecer el umbral, contrariamente a lo que se enseña en las estadísticas de las clases. En segundo lugar, no hacer "de rechazar no rechazar" la danza, al menos formalmente. Han cortado por lo sano, y decir "aquí está el p-valor, y por eso decimos que hemos encontrado una nueva partícula con 126 GeV de masa."

Nota importante

Los autores de la partícula de Higgs, el papel no declarar el bosón de Higgs aún. Sólo afirmó que la nueva partícula se encontró y que algunas de sus propiedades, tales como una masa consistente con el bosón de Higgs.

Se tomó un par de años para reunir pruebas adicionales antes de que se estableció que la partícula es, de hecho, el bosón de Higgs. Ver esta entrada del blog con los inicios de la discusión de los resultados. Los físicos se fue a comprobar con diferentes propiedades, tales como cero vuelta. Y mientras que la evidencia se reunieron en algún punto del CERN, declaró que la partícula bosón de Higgs.

¿Por qué es esto importante? Porque es imposible para trivializar el proceso de descubrimiento científico para algunos rígido inferencia estadística procedimiento. La inferencia estadística es sólo una herramienta que se utiliza.

Cuando el CERN estaba buscando esta partícula fue el enfoque en primer hallazgo. Era el objetivo final. El físico tenía una idea de por donde mirar. Una vez que encontraron un candidato, que se centró en demostrar que es el uno. Finalmente, la totalidad de la evidencia, no de un solo experimento con p-valor y el significado, convencidos todos de que hemos encontrado la partícula. Se incluyen aquí todos los conocimientos anteriores y el modelo estándar. Esto no es sólo una inferencia estadística, el método científico es más amplio que eso.

8voto

alexs77 Puntos 36

Creo que a veces es apropiado para interpretar la no-resultados estadísticamente significativos en el espíritu de "aceptar la hipótesis nula". De hecho, he visto estadísticamente significativa de los estudios de interpretación de la moda; el estudio fue muy precisa y los resultados fueron consistentes con un estrecho rango de no-nulo pero clínicamente insignificantes efectos. He aquí un poco de ampollas crítica de un estudio de (o además de su prensa) acerca de la relación entre el chocolate y el vino tinto consumo y su "saludables" efecto sobre la diabetes. Las curvas de probabilidad para la resistencia a la insulina distribuciones por alta/baja ingesta está histérica.

Si uno puede interpretar los resultados como "confirmando H_0" depende de un gran número de factores: la validez del estudio, el poder, la incertidumbre de la estimación, y la evidencia previa. Presentación de informes el intervalo de confianza (IC) en lugar de la p-valor es quizás el más útil contribución que puede hacer como un estadista. Me recuerdan a los investigadores y compañeros de los estadísticos que las estadísticas no tomar decisiones, que la gente hace, omitiendo los valores de p en realidad alienta a una más cuidadosa discusión de los resultados.

El ancho de la CI describe una gama de efectos que puede o no incluir el valor null, y pueden incluir o no muy clínicamente significativas en los valores, como la vida, el potencial de ahorro. Sin embargo, una estrecha CI confirma un tipo de efecto; el segundo tipo, que es "significativo" en un sentido verdadero, o la primera, la cual puede ser null o algo muy cercano a nulo.

Quizás lo que se necesita es un sentido más amplio de lo que "los resultados nulos" (y nulos efectos). Lo que me parece decepcionante en la colaboración en investigación es cuando los investigadores no se puede a priori estado lo que la gama de efectos que están dirigidos: si una intervención es la intención de reducir la presión arterial, cuántos mmHg? Si un medicamento está destinado a curar el cáncer, ¿cuántos meses de supervivencia de la voluntad del paciente? Alguien que es un apasionado de la investigación y "enchufado" a su campo y de la ciencia puede recitar la mayoría de los hechos sorprendentes acerca de la investigación previa y lo que se ha hecho.

En tu ejemplo, yo no puedo dejar de notar que el p-valor de 0,82 es probable que muy cerca de la nulos. A partir de eso, todo lo que puedo decir es que el CI se centra en un valor nulo. Lo que no sé es si abarca a efectos clínicamente significativos. Si el CI es muy estrecho, la interpretación que ellos dan es, en mi opinión, correcta, pero los datos no sostienen: que sería una edición menor. En contraste, el segundo p-valor de 0,22 es relativamente más cerca de su umbral de significancia (cualquiera que sea). Los autores correspondientemente interpretar como "no dar ninguna evidencia de la diferencia", que es consistente con un "no rechazar H_0"-tipo de interpretación. Tan lejos como la relevancia del artículo, puedo decir muy poco. Espero que examinar la literatura encontrar más notables de las discusiones de los resultados del estudio! Tan lejos como el análisis, acaba de informar de que el CI y hacer con ella!

6voto

Patrick Malone Puntos 159

Hay maneras de acercarse a este, que no se basan en los cálculos de la potencia (ver Wellek, 2010). En particular, también puede probar si usted rechazar la nula de que el efecto es de un a priori de la significativa magnitud.

Daniël Lakens los defensores de esta situación para la equivalencia de pruebas. Lakens en particular los usos "TOST" (dos caras de pruebas) de la media de las comparaciones, pero hay otras maneras de llegar a la misma idea.

En TOST de probar un compuesto null: la cara hipótesis nula de que su efecto es más negativa que la más pequeña diferencia negativa de interés y el valor null que su efecto es más positiva que la de la más pequeña diferencia positiva de interés. Si usted rechaza tanto, entonces se puede afirmar que no hay diferencia significativa. Tenga en cuenta que esto puede ocurrir incluso si el efecto es significativamente diferente de cero, pero en ningún caso requieren de avalar el null.

Lakens, D. (2017). La equivalencia de las pruebas: un práctico manual para t pruebas, las correlaciones, y meta-análisis. Psicología Social y de la Personalidad de las Ciencias, 8(4), 355-362.

Wellek, S. (2010). La prueba Estadística de la Hipótesis de la Equivalencia y estudio de no inferioridad asignaron. Chapman and Hall/CRC Press, segunda edición.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X