19 votos

Interpretación de resultados no estadísticamente significativos: ¿Tenemos "ninguna prueba" o "pruebas insuficientes" para rechazar el nulo?

Cuando no logramos rechazar la hipótesis nula en una prueba de hipótesis, ¿cuál de las siguientes es la mejor interpretación?

  • Tenemos ninguna prueba a nuestro nivel de significación $\alpha$ rechazar $H_0$ .
  • Tenemos falta de pruebas a nuestro nivel de significación $\alpha$ rechazar $H_0$ .

He visto ninguna prueba utilizado con frecuencia, pero falta de pruebas me parece mucho mejor. Digamos que tenemos un $p$ -valor de $p$ en una prueba de hipótesis. Si por casualidad hubiéramos elegido un $\alpha$ superior a $p$ entonces tendríamos pruebas para rechazar $H_0$ en ese $\alpha$ pero si por casualidad hubiéramos elegido un $\alpha$ menos de $p$ fallaríamos en rechazar que eso $\alpha$ . En ambos casos, tenemos la misma cantidad de pruebas contra $H_0$ (ya que tenemos el mismo $p$ -valor), simplemente habríamos utilizado un umbral diferente entre los dos casos. Así que para mí tiene mucho más sentido decir que tenemos suficiente o falta de pruebas en nuestro $\alpha$ en lugar de ninguna prueba ya que nuestras interpretaciones son $\alpha$ dependiente y no totalmente $p$ -dependiente del valor.

14voto

392781 Puntos 142

Según mi experiencia, falta de pruebas es la forma menos ambigua y más utilizada para describir la incapacidad de rechazar $H_0$ . En mi opinión, el razonamiento es que en estadística casi nunca tratamos con absolutos. Dicho esto, se trata más bien de una interpretación del lenguaje. Podemos pensar en una prueba que no rechace $H_0$ sin pruebas en su estado actual (dados los datos actuales, la prueba específica y los umbrales establecidos). Dicho esto, el problema es que a primera vista (para alguien que no esté muy familiarizado con las pruebas de hipótesis, por ejemplo) se pasa por alto que nuestra prueba sólo es tan precisa o correcta como nuestros datos/prueba/umbral permiten que sea.

Por eso estoy de acuerdo con usted en que "insuficiente" es una forma mejor de comunicar un fallo de rechazo. Dicho esto, puede que se trate de una diferencia de lenguaje entre distintos ámbitos.

Una cosa a tener en cuenta: Me parece que su razonamiento de cambiar $\alpha$ en cuanto a las pruebas no es del todo correcto. Se establece un nivel de significación antes de realizar la prueba y se mantiene, de lo contrario las conclusiones de la prueba se vuelven confusas. Una forma de obtener más pruebas es encontrar más datos relacionados con lo que se está probando.

14voto

mehturt Puntos 13

La frase "... pruebas para rechazar $H_0$ " no tiene mucho sentido para mí porque o bien rechazas $H_0$ cuando $p\leq\alpha$ o no. Es tu decisión rechazar o no rechazar. El "rechazo" no es una propiedad inherente al $p$ -valor porque requiere un criterio adicional establecido por el investigador.

Lo que tiene más sentido es hablar de la pruebas contra la hipótesis nula proporcionada por el $p$ -valor. Si adoptamos el punto de vista $^{[1,2]}$ que el $p$ -valor es un continuo medida de compatibilidad entre nuestros datos y el modelo (incluida la hipótesis nula), tiene sentido hablar de varios grados de evidencia en contra de $H_0$ . Personalmente, me gusta el enfoque de Rafi & Greenland $^{[1]}$ para transformar el $p$ -valor en (Shannon) sorpresa como $s=-\log_2(p)$ (también conocida como información Shannon). Para un amplio debate sobre la distinción de $p$ -valores de decisión y $p$ -como medidas de compatibilidad, véase el reciente artículo de Greenland $^{[2]}$ . Esto proporciona una escala absoluta en la que ver la información que un $p$ -valor proporciona. Si el lanzamiento de una moneda proporciona $1$ de información, un $p$ -valor de, digamos, $0.05$ proporciona $s=-\log_2(0.05)=4.32$ bits de información contra la hipótesis nula. Dicho de otro modo: A $p$ -valor de $0.05$ es tan sorprendente como ver todas las caras en cuatro lanzamientos de una moneda.

Este enfoque deja muy claro que las pruebas aportadas por un $p$ -valor no es lineal. Por ejemplo: A $p$ -valores $0.10$ proporciona $3.32$ bits de información, mientras que un $p$ -valor de $0.15$ proporciona $2.74$ bits. Los primeros $p$ -Así pues, el valor $21$ % más pruebas contra $H_0$ como el segundo. En un segundo ejemplo, un $p$ -valor de $0.001$ proporciona aproximadamente $132$ % más pruebas que un $p$ -valor de $0.051$ a pesar de que la diferencia absoluta entre ellos es la misma que en el primer ejemplo ( $0.05$ ). He aquí una ilustración del papel $[1]$ :

RafiGreenland

Para responder a la pregunta: Mientras el $p$ -es inferior a $1$ establece algunos evidencia contra la hipótesis nula porque muestra algunos incompatibilidad entre los datos y el modelo. Por tanto, decir "no hay pruebas" no sería del todo exacto.

Referencias

$[1]$ : Rafi, Z., Greenland, S. Semantic and cognitive tools to aid statistical science: replace confidence and significance by compatibility and surprise. BMC Med Res Methodol 20, 244 (2020). https://doi.org/10.1186/s12874-020-01105-9

$[2]$ : Groenlandia, S. (2023). Divergencia frente a valores P de decisión: Una distinción que vale la pena hacer en teoría y mantener en la práctica: Or, how divergence P-values measure evidence even when decision P-values do not. Scand J Statist, 50( 1), 54- 88. https://doi.org/10.1111/sjos.12625

8voto

Palmik Puntos 1664

Puede ser útil distinguir entre las partes "objetiva" y "subjetiva" de las pruebas estadísticas. Se parte de una hipótesis nula $H_0$ observar datos, calcular una estadística y obtener un $p$ -valor. Puede que no haya utilizado el estadístico "óptimo", obtenido los límites probabilísticos más precisos, etc., pero existe un proceso fijo que transforma los datos en un $p$ -valor basado en $H_0$ . En este punto, el $p$ -valor es tu "prueba", y su fuerza es inversamente proporcional a su magnitud.

Ahora bien, "rechazar" la hipótesis nula basándose en un valor preestablecido de $\alpha$ es en cierto modo objetiva, ya que se basa en tu intuición sobre "cuántas pruebas son suficientes pruebas". Elegir $\alpha$ después de ver el $p$ -valor es problemático porque usted influye voluntariamente en el resultado variando $\alpha$ es decir, usted es capaz de "mover los postes de la portería".

En última instancia, estaría de acuerdo con la respuesta de 392781, que hay "pruebas insuficientes", siempre y cuando hayas definido de antemano cómo serían las "pruebas suficientes", en forma de elegir $\alpha$ . Aun así, conviene recordar que "evidencia" no es una palabra perfecta en este caso, porque suele utilizarse para referirse a un razonamiento discreto y objetivo, y no a una heurística probabilística.

7voto

Lewian Puntos 296

Esto es hasta cierto punto similar a algunas otras respuestas, sin embargo creo que sigue mereciendo la pena decirlo.

Lo que yo enseño (y he visto en otros sitios) es o bien prueba a un nivel fijo $\alpha$ , o utilizar un "lenguaje de pruebas" más graduado. Si fijamos un nivel, yo diría simplemente "No rechazamos en el nivel ". $\alpha$ "(o lo hacemos, claro). Tal vez (si se quiere introducir el término evidencia), "no hay significativo pruebas" (a nivel $\alpha$ ; a menos que lo haya).

Alternativamente, yo interpretaría los resultados de las pruebas de forma no binaria diciendo "Hay pruebas muy sólidas/fuertes/muy débiles/ninguna prueba" para p<0,001/0,01/0,05/0,1/p>0,1.

No me gusta el término "insuficiente", ya que parece sugerir que nos se busca para rechazar pero no lo hizo (lo mismo con la formulación de la pregunta "no rechazó"), mientras que yo creo que un científico debería estar abierto a cualquier resultado en lugar de esperar la significación (aunque en muchos casos puede ser discutiblemente más honesto decir algo como "deseaba tanto la significación pero no la conseguí, boohoo", en cuyo caso el investigador probablemente lo diga mejor así para que la gente sepa qué pensar de la neutralidad del investigador...).

4voto

user164061 Puntos 281

Las dos frases tienen casi el mismo significado.

La frase con "insuficiente" es sólo poner más énfasis en la idea de que hay una gama gradual de pruebas, y que hay un "límite para la cantidad de pruebas" que no se ha pasado.

La otra frase puede considerarse una oración corta/abreviada que dice más o menos lo mismo: "No tenemos pruebas (que sean suficientes)".

El segundo caso tiene el mismo significado, pero se enuncia de forma diferente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X