Digamos que estamos interesados en evaluar la eficacia de dos métodos diferentes para mejorar alguna medida $x$ .
Asignamos aleatoriamente un grupo de 40 individuos al método 1 y un grupo de 40 individuos al método 2. Realizamos una medición antes y después de la intervención. Tras la intervención, realizamos una prueba t de 2 muestras y obtenemos un p -de 0,078. ¿Es correcto afirmar que ambos enfoques son igual de eficaces? He visto esto en un artículo y no estoy de acuerdo en que sea la interpretación correcta (al menos no cuando se basa en el p -valor solo).
Mi punto de vista
Sé que NHST nos da efectivamente lo siguiente: $p(\text{data} \mid H_0)$ . Teniendo esto en cuenta, no creo que reclamar la equivalencia únicamente sobre la base de una insignificante p -valor es estrictamente correcto.
¿Por qué? Bueno, en primer lugar, la prueba de hipótesis responde a la pregunta "¿son las diferencias observadas lo suficientemente grandes como para considerarse sorprendentes, suponiendo que la nula sea cierta?". No responde a la pregunta "¿son las diferencias exactamente 0? En otras palabras, podemos observar diferencias >0 O <0 y aún así obtener un resultado insignificante. p -valor. Evidentemente, esto no significa que la diferencia entre los dos métodos sea =0 O que los métodos sean equivalentes. Ahora digamos que, en nuestro ejemplo, el grupo 1 experimenta un cambio mayor en la medida $x$ que el grupo 2 (y vemos esto reflejado por el tamaño del efecto o en las puntuaciones de cambio brutas), y sin embargo observamos una insignificante p -de 0,078. Puedo entender por qué algunos argumentan que los dos métodos pueden considerarse más o menos "equivalentes" (a falta de un término mejor), porque la diferencia real bien puede ser 0 y la diferencia observada se debe probablemente a la variación del muestreo, a un error de medición o a alguna combinación de ambos. PERO, también es posible que se trate de un error de tipo II: Si tuviéramos una muestra de mayor tamaño, ¿sería significativa esta diferencia? Sí, en algún momento lo sería.
Así que, para mí, las afirmaciones de equivalencia deberían basarse en (a) pruebas de hipótesis de inferioridad/equivalencia o (b) como mínimo, en la interpretación de los tamaños del efecto/la magnitud de las puntuaciones de cambio, y NO sólo en base a p -valores. Sí, si el efecto es lo suficientemente grande, seguirá siendo significativo con muestras más pequeñas, pero lo que quiero decir se refiere más al uso de la función p -valor por sí solo para hacer esta afirmación.
Simplemente me parece muy atrevida y fuerte la afirmación de equivalencia cuando se basa únicamente en la magnitud de un p -valor. Sin embargo, acepto que esta afirmación tiene más peso si el investigador ha realizado a propósito una prueba de hipótesis de equivalencia. ¿Qué opinan los demás? ¿Estoy muy equivocado? ¿Es un comentario justo o no?