6 votos

Tamaño del efecto para la prueba de rango con signo de Wilcoxon que incorpora el rango posible del atributo

Actualmente estoy trabajando en mi tesis de maestría y estoy analizando los atributos obtenidos de los modelos digitales de elevación (MDE). Intento comparar dos conjuntos de puntos para los que he extraído valores de altitud de dos rásteres DEM con diferente resolución.

Resumiendo: realizo una prueba de rangos con signo de Wilcoxon sobre los dos atributos (sin distribución normal y muestra emparejada). Ahora, los boxplots son muy similares y los valores medios muestran una diferencia de aproximadamente un metro. Ya he aprendido que la significación es muy sensible a n grandes y, por tanto, me estoy centrando en el tamaño del efecto. Esperaría un tamaño del efecto bajo, debido a la similitud de los boxplots y los valores medios. Sin embargo, como el desplazamiento es realmente unilateral, el tamaño del efecto ( $Z/\sqrt{n}$ ) es bastante grande, aunque los dos conjuntos son en realidad bastante similares.

Sé que estas pruebas están diseñadas para encontrar incluso las diferencias más pequeñas y logra este objetivo, ya que hay un cambio unidireccional. Aunque hay una diferencia, es bastante pequeña y estoy buscando un tamaño del efecto que considere esto. Es decir, que se normalice no sólo por el tamaño de la muestra, sino también por el rango de atributos.

¿Existe una medida del tamaño del efecto que tenga en cuenta el rango del atributo?


Aquí hay un código R que ilustra este comportamiento con datos simulados:

# install.packages("coin")
library(coin)

set.seed(1)
a <- runif(1000,900,1100)
b <- a+runif(1000,0,1)

wilcoxsign_test(a ~ b)
-27.393/sqrt(length(a)) # Z-score/sqrt(n)

diff <- c(a - b)
diff <- diff[ diff!=0 ]
diff.rank <- rank(abs(diff))
diff.rank.sign <- diff.rank * sign(diff)

W <- sum(diff.rank.sign)
Z <- W/sqrt((1000*1001*2001)/6)
Z/sqrt(1000)

windows()
  d = stack(list(a=a, b=b))
  boxplot(values~ind, d)
windows()
  boxplot(a-b)

1 votos

Nunca he encontrado un tamaño del efecto para una prueba de rango con signo. Sin embargo, podría considerar algo así como la diferencia de medianas dividida por el IQR de la muestra agregada.

1 votos

0 votos

En gis.stackexchange.com/questions/1551/ He publicado un ejemplo de cómo se podría hacer este tipo de comparación. Aunque se centra en las pendientes, la mayoría de las ideas se traducen en la comparación de otras características derivadas. Dado que los MDE casi siempre presentan una autocorrelación espacial considerable, la aplicabilidad de las pruebas univariantes como las que se utilizan aquí es dudosa. Se describen otras consideraciones en gis.stackexchange.com/questions/55507/ .

5voto

Sal Mangiafico Puntos 26

La estadística del tamaño del efecto Z /sqrt( N ) --- a veces llamado r --- en el caso de las observaciones emparejadas, está relacionado con el probabilidad que un grupo es mayor que el otro, o si lo prefiere, que las diferencias son sistemáticamente mayores que cero.

No mide la diferencia de valores entre los dos grupos. Otros estadísticos de tamaño del efecto como el de Cohen d está relacionada con las diferencias de medias.

Para mí, lo más práctico es considerar la importancia práctica de los resultados. Si la diferencia media es de 1 metro, ¿es lo suficientemente grande como para importar? Esto es subjetivo, pero honestamente, las conclusiones prácticas de cualquier investigación tienen que ser subjetivas. Se puede informar p y r y luego dejar el trabajo duro de pensar en lo que los resultados realmente significan para su cerebro.

Otro enfoque que utiliza la estadística del tamaño del efecto sería utilizar el coeficiente de Cohen d o algo que creas parecido a lo de Cohen d . La d de Cohen es esencialmente la diferencia de medias dividida por la desviación estándar de las observaciones. Hay algunas variantes; puedes buscar sus cálculos precisos si quieres. La interpretación aquí es que una d de Cohen d de 1 indica que las medias difieren en una desviación estándar. Si se siente cómodo utilizando medias y desviaciones estándar con sus datos, podría utilizar este estadístico. De lo contrario, si lo prefiere, podría crear alguna estadística de tamaño del efecto, como la diferencia de medianas dividida por el valor de la mediana (que es un porcentaje), o la mediana dividida por el IRQ, como sugiere @GreggH.

1voto

Niranjan Dixit Puntos 6

Después de indagar un poco y de hablar con mi profesor, se me ocurrió una solución para seguir consultando.

El problema es que tenía una idea equivocada sobre la prueba de rangos con signo de Wilcoxon. El propósito de la prueba es indicar si hay un cambio entre las dos variables. El valor p sugiere que hay un cambio estadísticamente significativo. Como hoy en día los valores p no son tan significativos como antes (debido al gran tamaño de las muestras), es necesario utilizar una medida del tamaño del efecto (por ejemplo Wasserstein et al. (2016) ). El tamaño del efecto calculado sólo indica si hay un cambio constante en una dirección. Sin embargo, no implica lo fuerte que es este cambio en términos de valores.

Para comprender la intensidad del cambio, no existen actualmente medidas de tamaño del efecto ampliamente aceptadas. En general, no existen medidas del tamaño del efecto para las pruebas no paramétricas por ejemplo, Leech & Onwuegbuzie (2002) . Sin embargo, existen medidas de efecto para las pruebas no paramétricas (como la sugerida por Gregg H, por ejemplo). Otras pruebas como la de Kolmogorov-Smirnov de dos muestras o la de Anderson-Darling podrían ayudar a comprender mejor el cambio de distribución. Por otra parte, al aumentar el tamaño de las muestras, también es posible utilizar una prueba t según el teorema del límite central . A continuación, es posible calcular otras medidas de efecto (por ejemplo, la d de Pearson).

Esta respuesta está en la línea de lo que Sal Mangiafico explicó con otras palabras. Espero que pueda ayudar a alguien más mientras trata de resolver esto.

Feliz de editar si alguien tiene algún suplemento o lo que sea.

Referencias:

Leech, Nancy L.; Onwuegbuzie, Anthony J. (2002). A Call for Greater Use of Nonparametric Statistics.

Wasserstein, Ronald L.; Lazar, Nicole A. (2016). La declaración de la ASA sobre p -Valores: Contexto, proceso y propósito. En The American Statistician 70(2).

1voto

Sean Hanley Puntos 2428

Si tiene tantos datos, realmente podría haber utilizado un $t$ -prueba sin problemas. Vale la pena señalar que la prueba de rangos con signo de Wilcoxon en realidad está probando una hipótesis nula ligeramente diferente 1,2 . A menudo, la razón para elegir la prueba de rangos con signo de Wilcoxon es que la gente no está dispuesta a asumir que los números son un intervalo igual. En tu caso, parece que crees que lo son.

Otra cuestión es que yo no me centraría en los boxplots individuales. Es más probable que engañen que que iluminen. Como mínimo, considere la posibilidad de trazar un boxplot de diferencias junto con los boxplots de los datos originales 3 .

En general, las medidas del tamaño del efecto están diseñadas para desinflamar la magnitud del efecto a partir de la cantidad de datos que tenemos (una prueba estadística combina necesariamente los dos), y para comunicar así el tamaño del cambio de una manera intuitiva y sencilla (es decir, normalmente un solo número). Así, el tamaño del efecto que enumeras no trata de "normalizar por el tamaño de la muestra", sino de extracto el tamaño de la muestra a partir de la estadística de la prueba (aunque en este caso es totalmente opaco).

Como crees que las unidades son fiables, alguna versión de la diferencia media debería estar bien. Si cree que su público está suficientemente familiarizado con las unidades, una diferencia media bruta sería apropiada. (Considere que cuando la gente habla de la pérdida de peso o del retraso en el crecimiento, siempre utiliza las medidas cotidianas, por ejemplo, libras o kilogramos). Si su público no está familiarizado con estas unidades, se necesita una diferencia de medias estandarizada para darle un contexto interpretable. La forma típica de hacerlo es dividir la diferencia media por una desviación estándar (calculada de una de varias maneras). De hecho, este procedimiento se ha convertido en el significado de "diferencia media estandarizada". La noción de normalización es mucho más amplio que eso, por supuesto, y no hay ninguna razón para que tenga que limitarse a ese procedimiento. Si las diferencias medias que son posibles en su situación están limitadas (por ejemplo, por algunas restricciones físicas) y pueden definirse, podría dividir la diferencia media observada por el rango posible y presentarla. Sólo tienes que asegurarte de explicar claramente lo que has hecho. Yo probablemente combinaría esto con el tamaño del efecto común 4 y decir algo como:

Los rastreos mostraron una mejora significativa debido a la manipulación (z=-30, p<0,001). El cien por cien de las diferencias entre píxeles emparejados fueron negativas, y el desplazamiento medio, -0,49, constituyó una mejora igual al X% de lo físicamente posible.

<strong>Referencias:</strong>

  1. ¿Por qué se prefiere la estadística paramétrica a la no paramétrica?
  2. ¿Qué se consigue exactamente con una prueba no paramétrica y qué se hace con los resultados?
  3. ¿Es incorrecto utilizar barras de error para las medias en un estudio intra-sujeto?
  4. ¿Tamaño del efecto para la prueba de rango con signo de Wilcoxon?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X