2 votos

Restando el rango-medio-ideal en la suma de rangos de Wilcoxon, ¿qué hace?

Estoy leyendo Descubriendo Estadísticas usando R de Andy Field. En la sección sobre cómo calcular el estadístico de rango en MWU, uno de los pasos es restar el rango medio de la suma de rangos.

W = sum of ranks - mean rank

La idea es corregir por el número de personas en el grupo.

Pero lo que estamos restando no es el verdadero promedio de los rangos sumados, sino el promedio ideal (hay diez observaciones y la suma es [1+2+...+10], mientras que los rangos reales son 1,2,3.5,....12, debido a las ataduras.

Cuando normalmente eliminamos el promedio de una muestra es para crear un centrado. ¿Qué hace este procedimiento en este contexto? No soy una persona muy instruida en matemáticas, por lo que alguna comprensión intuitiva de lo que está sucediendo sería útil

Gracias.

enter image description here

2voto

Aliquid Puntos 21

Esta es mi primera respuesta en CV, así que por favor haz ediciones o házmelo saber si está mal o falta algo.

Ahora pasamos a tu pregunta.

¿Por qué no solo la suma de rangos?

Primero la conclusión: comparar la suma de rangos en sí misma a través de diferentes conjuntos de datos no tiene sentido. Restar ese "rango medio" hace la comparación (algo más) significativa.

Sin restar, la suma de rangos en sí misma no es comparable a través de diferentes conjuntos de datos:

Por ejemplo, si tenemos dos conjuntos de datos, con dos grupos (llamémoslos $A$ y $B$) separados por una barra: el primero siendo $(3,4|1,2)$, y el segundo siendo $(1,2,3,4|5,6,7,8)$.

Entonces en el primer conjunto de datos, las observaciones de $A$ son las más grandes del conjunto de datos, y la suma de rangos de $A$ es $3+4=7$.

En el segundo, $A$ tiene una suma de rangos más alta de $1+2+3+4=10$ a pesar de ser las observaciones más bajas, simplemente porque el conjunto de datos es más grande.

Esto significa que no podemos mirar directamente una suma de rangos de (digamos) $10$ y decidir si es grande sin conocer el tamaño del conjunto de datos.

Sin embargo, si restamos el "rango medio" de la suma de rangos para obtener el MVU, comparar el MVU a través de conjuntos de datos tiene más sentido:

El primer conjunto de datos tiene un MVU de $7 - 2(2+1)/2=4$, y el segundo conjunto de datos tiene un MVU menor de $10 - 4(4+1)/2 = 0$. Esto coincide mejor con la intuición.

En general, las sumas de rangos de un conjunto de datos más grande serán restadas por un "rango medio" más grande, y los resultados son más comparables entre conjuntos de datos de diferentes tamaños.


¿Qué significa el MVU?

Nuevamente, la conclusión primero: el MVU responde a la pregunta "¿cuánto es más alta la suma de rangos que su valor más pequeño posible?". En otras palabras, en lugar de centrar nada, restar el "rango medio" crea un cero significativo del MVU.

He estado usando "rango medio" entre comillas, porque en mi opinión el nombre "rango medio" es bastante engañoso, ya que no es la media de nada significativo. En su lugar, es el valor posible mínimo de las sumas de rangos (cuando no hay empates).

Supongamos que el grupo $A$ tiene $N$ personas $(a_1, \dots, a_N)$, y $B$ tiene $M$ personas $(b_1,\dots, b_M)$, y estamos calculando los rangos de las personas en el grupo $A$. En el caso más extremo, todos en $A$ tienen un valor más bajo que todos en $B$, por lo que los grupos ordenados por sus números se verán así $$a_{i_1},\dots,a_{i_N},b_{j_1},\dots,b_{j_M}.$$Ahora el grupo $A$ recibe rangos $1,\dots N$ y el grupo $B$ recibe $N+1,\dots,M+N$, y la suma de rangos del grupo $A$ es $N(N+1)/2$, es decir, el "rango medio" del que habla el libro.

En conclusión, para un grupo de tamaño $N$ (en un conjunto de datos más grande), el número $1+2+\cdots+N=\frac{N(N+1)}{2}$ es la suma de rangos más pequeña que puede tener.


¿Importa esto realmente?

En mi opinión, no (a menos que por supuesto estés comparando sumas de rangos a través de diferentes conjuntos de datos). De hecho, mi curso universitario utiliza la suma de rangos original (sin restar el "rango medio") y lo llama "estadístico de suma de rangos de Wilcoxon". La prueba de hipótesis con eso es idéntica a usar el MVU.

Para ser precisos, si usas el MVU/suma de rangos para encontrar valores p para pruebas de hipótesis, restar este valor constante (o no) no afecta la conclusión de la prueba. Solo desplaza toda la distribución (analógico a cómo cambiar $\mu$ en la distribución Gaussiana $N(\mu,1)$ la desplaza) y los valores p no se ven afectados.

0voto

jsaak Puntos 211

Tuve una discusión más a fondo en Datamethods. Los recursos que encontré más útiles son Violación de las probabilidades proporcionales y MWU y probabilidades proporcionales.

Mi entendimiento actual es :

La prueba reporta la probabilidad de que un valor seleccionado al azar de una lista sería mayor que uno similar seleccionado de la segunda lista. Esto se informa mejor como probabilidad de concordancia.

Si las muestras son del mismo tamaño, la resta no hace mucho más que estandarizar el informe y ayuda a calcular la probabilidad de concordancia que es $U1 / (n1 * n2)$

Cuando las muestras son de tamaños diferentes, controla la ventaja que tendrá la muestra más grande, ya que la suma de rangos depende del número de muestras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X