3 votos

¿Es correcto afirmar que existe "equivalencia" cuando no hay diferencias significativas entre dos métodos?

Digamos que estamos interesados en evaluar la eficacia de dos métodos diferentes para mejorar alguna medida $x$ .

Asignamos aleatoriamente un grupo de 40 individuos al método 1 y un grupo de 40 individuos al método 2. Realizamos una medición antes y después de la intervención. Tras la intervención, realizamos una prueba t de 2 muestras y obtenemos un p -de 0,078. ¿Es correcto afirmar que ambos enfoques son igual de eficaces? He visto esto en un artículo y no estoy de acuerdo en que sea la interpretación correcta (al menos no cuando se basa en el p -valor solo).

Mi punto de vista

Sé que NHST nos da efectivamente lo siguiente: $p(\text{data} \mid H_0)$ . Teniendo esto en cuenta, no creo que reclamar la equivalencia únicamente sobre la base de una insignificante p -valor es estrictamente correcto.

¿Por qué? Bueno, en primer lugar, la prueba de hipótesis responde a la pregunta "¿son las diferencias observadas lo suficientemente grandes como para considerarse sorprendentes, suponiendo que la nula sea cierta?". No responde a la pregunta "¿son las diferencias exactamente 0? En otras palabras, podemos observar diferencias >0 O <0 y aún así obtener un resultado insignificante. p -valor. Evidentemente, esto no significa que la diferencia entre los dos métodos sea =0 O que los métodos sean equivalentes. Ahora digamos que, en nuestro ejemplo, el grupo 1 experimenta un cambio mayor en la medida $x$ que el grupo 2 (y vemos esto reflejado por el tamaño del efecto o en las puntuaciones de cambio brutas), y sin embargo observamos una insignificante p -de 0,078. Puedo entender por qué algunos argumentan que los dos métodos pueden considerarse más o menos "equivalentes" (a falta de un término mejor), porque la diferencia real bien puede ser 0 y la diferencia observada se debe probablemente a la variación del muestreo, a un error de medición o a alguna combinación de ambos. PERO, también es posible que se trate de un error de tipo II: Si tuviéramos una muestra de mayor tamaño, ¿sería significativa esta diferencia? Sí, en algún momento lo sería.

Así que, para mí, las afirmaciones de equivalencia deberían basarse en (a) pruebas de hipótesis de inferioridad/equivalencia o (b) como mínimo, en la interpretación de los tamaños del efecto/la magnitud de las puntuaciones de cambio, y NO sólo en base a p -valores. Sí, si el efecto es lo suficientemente grande, seguirá siendo significativo con muestras más pequeñas, pero lo que quiero decir se refiere más al uso de la función p -valor por sí solo para hacer esta afirmación.

Simplemente me parece muy atrevida y fuerte la afirmación de equivalencia cuando se basa únicamente en la magnitud de un p -valor. Sin embargo, acepto que esta afirmación tiene más peso si el investigador ha realizado a propósito una prueba de hipótesis de equivalencia. ¿Qué opinan los demás? ¿Estoy muy equivocado? ¿Es un comentario justo o no?

2voto

EdM Puntos 5716

Como la "prueba de equivalencia" tiene un significado bien establecido en estadística En lo que respecta a la hipótesis nula, tiene razón en que el hecho de no rechazar una hipótesis nula no debe llevar a afirmar que los tratamientos son "equivalentes" o "igual de eficaces". Tal afirmación se basa adecuadamente en una diferencia máxima previamente elegida que pueda considerarse "equivalente" en la práctica, basándose en el conocimiento de la materia. Como Walker y Nowacki ("Comprender las pruebas de equivalencia y no inferioridad", en J. Medicina Interna General 26: 192-196, 2011) destacó:

La determinación del margen de equivalencia, $\delta$ es el paso más crítico en las pruebas de equivalencia/no inferioridad... Debe subrayarse que el valor del margen de equivalencia debe determinarse antes de registrar los datos. Esto es esencial para mantener el error de tipo I en el nivel deseado.

No se puede simplemente utilizar los resultados de una prueba t estándar para establecer la equivalencia post-hoc . Continúan con la siguiente sección de su reseña:

LA AUSENCIA DE DIFERENCIAS NO IMPLICA EQUIVALENCIA

El uso de una prueba comparativa tradicional para establecer la equivalencia/no inferioridad conduce con frecuencia a conclusiones incorrectas. La razón es doble. En primer lugar, la carga de la prueba recae sobre la hipótesis errónea, es decir, la de una diferencia. En este contexto, un resultado significativo establece una diferencia, mientras que un resultado no significativo sólo implica que no puede descartarse la equivalencia (o igualdad). Por consiguiente, el riesgo de concluir incorrectamente que existe equivalencia puede ser muy elevado. La otra razón es que no se tiene en cuenta el margen de equivalencia, por lo que el concepto de equivalencia no está bien definido.

La bibliografía está claramente de su parte.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X