21 votos

¿Tamaño del efecto para la prueba de rango con signo de Wilcoxon?

Algunos autores (por ejemplo, Pallant, 2007, p. 225; véase la imagen de abajo) sugieren calcular el tamaño del efecto para una prueba de rango con signo de Wilcoxon dividiendo la estadística de la prueba por la raíz cuadrada del número de observaciones:

$r = \frac{Z}{\sqrt{n_x + n_y}}$

Z es el resultado de la prueba del SPSS (véase la imagen de abajo), así como de wilcoxsign_test en R. (Véase también mi pregunta relacionada: teststatistic vs linearstatistic en wilcoxsign_test )

Otros sugieren que el Bravais-Pearson ( $r = \frac{cov(XY)}{sd(X) \times sd(Y)}$ ) o Spearman ( $r_S$ ) los coeficientes de correlación (según el tipo de datos).

Al calcularlos, los dos r s no son ni remotamente iguales. Por ejemplo, para mis datos actuales:

r = 0,23 ( para $r = \frac{Z}{\sqrt{n_x + n_y}}$ )

r = 0,43 ( Pearson )

Esto implicaría tamaños de efecto muy diferentes.

Entonces, ¿cuál es el tamaño del efecto correcto que hay que utilizar, y cómo se r ¿se relacionan entre sí?


Páginas 224 (parte inferior) y 225 de Pallant, J. (2007). Manual de supervivencia del SPSS:

enter image description here

enter image description here

0 votos

Bravais-Pearson es nuevo para mí. Supongo que se trata de otro caso en el que Pearson se lleva el mérito cuando otro llegó primero.

1 votos

0 votos

@Glen_b Sí, eso es. Lo siento, siempre me resulta difícil y confuso cuando tengo que traducir terminología estadística al inglés. Por favor, edita la pregunta si conoces el término o términos adecuados.

6voto

Sean Hanley Puntos 2428
  • Si no hay empates, yo informaría de la proporción de valores posteriores que son menores que los correspondientes valores anteriores.
  • Si se producen empates, se podría informar de la proporción de valores posteriores que son menores que los anteriores del número total de pares no empatados, o informar de las tres proporciones (<, =, >) y quizás de la suma de las dos que sean más significativas. Por ejemplo, podría decir "el 33% tenía menos miedo a la estadística, el 57% no cambió y el 10% tenía más miedo después del curso, de modo que el 90% era igual o mejor que antes".

En términos generales, una prueba de hipótesis arrojará un valor p que puede utilizarse para tomar una decisión sobre si se rechaza o no la hipótesis nula mientras se controla la tasa de error de tipo I. El valor p, sin embargo, confunde el tamaño del efecto con nuestra cantidad de claridad de que es inconsistente con la nula (en esencia, la cantidad de datos a los que la prueba tuvo acceso). Un tamaño del efecto generalmente trata de extraer el $N$ para aislar la magnitud del efecto. Esta línea de razonamiento ilumina la razón de ser de la división $z$ por $\sqrt N$ . Sin embargo, una de las principales consideraciones de las medidas del tamaño del efecto es la interpretabilidad. Lo más habitual es que esa consideración se manifieste al elegir entre un tamaño del efecto bruto o un tamaño del efecto estandarizado. (Supongo que podríamos llamar $z/\sqrt N$ un tamaño del efecto estandarizado, por si sirve de algo). En cualquier caso, mi opinión es que los informes $z/\sqrt N$ no dará a la gente una intuición rápida y directa de su efecto.

Sin embargo, hay otra arruga. Aunque se quiere una estimación del tamaño del efecto global, la gente suele utilizar la prueba de rangos con signo de Wilcoxon con datos que son sólo ordinales. Es decir, cuando no confían en que los datos puedan indicar de forma fiable la magnitud del cambio dentro de un estudiante, sino sólo que se produjo un cambio. Esto me lleva a la proporción mejorada que se ha comentado anteriormente.


Por otro lado, si confía en que los valores son intrínsecamente significativos (por ejemplo, sólo utilizó la prueba de rango con signo por su solidez frente a la normalidad y los valores atípicos), podría utilizar simplemente una media bruta o una diferencia de la mediana, o la diferencia de la media estandarizada como medida del efecto.

3 votos

+1 Sus medidas de efecto propuestas son fáciles de entender y también están relacionadas con la estadística de prueba.

3voto

Sin saber qué tipo de datos se están evaluando es muy difícil dar un buen consejo aquí. Y realmente, eso es todo lo que se puede conseguir. No existe la mejor medida del tamaño del efecto para cuestiones como ésta... quizá nunca.

Los tamaños del efecto mencionados en la pregunta son todos tamaños del efecto estandarizados. Pero es muy posible que las medias o medianas de las medidas originales estén bien. Por ejemplo, si se mide el tiempo que tarda en completarse un proceso de fabricación, la diferencia de tiempos debería ser un tamaño del efecto perfectamente razonable. Cualquier cambio en el proceso, las mediciones futuras, las mediciones a través de los sistemas y las mediciones a través de las fábricas, estarán todas en el tiempo. Tal vez quiera la media o la mediana, o incluso la moda, pero lo primero que tiene que hacer es mirar la escala de medición real y ver si el tamaño del efecto es razonable de interpretar y está fuertemente conectado a la medida.

Para ayudar a pensar en eso, los efectos que deben ser estandarizados son cosas que se miden más indirectamente y de muchas maneras. Por ejemplo, las escalas psicológicas pueden variar a lo largo del tiempo y de muchas maneras e intentan llegar a una variable subyacente que no se está evaluando directamente. En esos casos, es necesario estandarizar los tamaños de los efectos.

Con los tamaños de efecto estandarizados, la cuestión crítica no es sólo cuál utilizar, sino qué significan. Como insinúas en tu pregunta, tampoco sabes lo que significan y eso es lo crítico. Si no se sabe qué es el efecto estandarizado, no se puede informar correctamente, interpretar correctamente o utilizar correctamente. Además, si hay una variedad de formas de discutir los datos, no hay absolutamente nada que le impida informar de más de un tamaño del efecto. Puede discutir sus datos en términos de relación lineal, como con la correlación del momento del producto, o en términos de relación entre los rangos con Spearman r y las diferencias entre ellos o simplemente proporcionar toda la información en la tabla. Eso no tiene nada de malo. Pero, sobre todo, tendrás que decidir qué quieres que signifiquen tus resultados. Eso es algo que no puede responderse a partir de la información dada y podría requerir mucha más información y conocimientos específicos del dominio de lo que es razonable para una pregunta en este tipo de foro.

Y siempre hay que pensar en el meta-análisis sobre cómo se informan los efectos. ¿Podrá la gente en el futuro tomar los resultados que estoy reportando e integrarlos con otros? Tal vez exista una norma en su campo para estas cosas. Tal vez haya seleccionado una prueba no paramétrica principalmente porque no confía en las conclusiones que otros han sacado sobre las distribuciones subyacentes y quiere ser más conservador en sus suposiciones en un campo que utiliza principalmente pruebas paramétricas. En ese caso, no hay nada malo en proporcionar adicionalmente un tamaño del efecto que se utiliza normalmente con las pruebas paramétricas. Hay que tener en cuenta estas y muchas otras cuestiones cuando se piensa en cómo situar el hallazgo en una literatura más amplia de investigación similar. Normalmente, las buenas estadísticas descriptivas resuelven estos problemas.

Así que ese es el principal consejo. Tengo algunos comentarios adicionales. Si quieres que el tamaño del efecto esté fuertemente relacionado con la prueba que hiciste, entonces el Z La recomendación basada en la información es, obviamente, la mejor. Su tamaño del efecto estandarizado significará lo mismo que la prueba. Pero en cuanto no se hace eso, no hay nada de malo en utilizar casi cualquier otra cosa, incluso algo como el coeficiente de Cohen d que se asocia a las pruebas paramétricas. No hay ningún supuesto de normalidad para calcular las medias, las desviaciones estándar o d resultados. De hecho, hay supuestos más débiles que para el coeficiente de correlación recomendado. Y siempre informan de buenas medidas descriptivas. Una vez más, las medidas descriptivas no tienen supuestos que usted estaría violando, pero tenga en cuenta su significado sustantivo. Las estadísticas descriptivas que reportas dicen algo sobre tus datos que quieres decir y las medias y medianas dicen cosas diferentes.

Si quiere discutir los tamaños de los efectos de las medidas repetidas frente a los de los diseños independientes, esa es una cuestión totalmente nueva.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X