9 votos

¿Cuál es la mejor manera de visualizar la prueba de una muestra?

Actualmente estamos escribiendo un artículo con varias pruebas de Wilcoxon de una muestra. Mientras que la visualización de las pruebas de dos muestras es fácil a través de boxplots Me preguntaba si hay alguna ¿una buena manera de visualizar los resultados de las pruebas de una muestra?

# Example data
pd <- c(0.80, 0.83, 1.89, 1.04, 1.45, 1.38, 1.91, 1.64,
        0.73, 1.46, 1.15, 0.88, 0.90, 0.74, 1.21)

wilcox.test(pd, mu = 1.1)

#   Wilcoxon signed rank test
#
# data:  pd
# V = 72, p-value = 0.5245
# alternative hypothesis: true location is not equal to 1.1

...y también:

Me gustaría obtener el valor Z en lugar del valor V. Sé que si utilizo coin en lugar del paquete básico stats Tendré valores z, pero coin paquete parece no poder realizar la prueba de Wilcoxon de una muestra.

7voto

AdamSane Puntos 1825

¿Algo así?

One sample boxplot

¿O buscaba algún intervalo para la mediana, como el que se obtiene con los boxplots con muescas (pero adaptado a una comparación de una muestra, naturalmente)?

He aquí un ejemplo de ello:

enter image description here

Esto utiliza el intervalo sugerido en McGill et al (el que aparece en las referencias de ?boxplot.stats ). En realidad, se podrían utilizar muescas, pero eso podría aumentar la posibilidad de que se interpretara como un boxplot ordinario con muescas.

Por supuesto, si se necesita algo que replique más directamente la prueba de rango con signo, se pueden construir varias cosas que lo hagan, que incluso podrían incluir el intervalo para la pseudo-mediana (es decir, la estimación de localización de Hodges-Lehmann de una muestra, la mediana de las medias por pares).

Sí, es cierto, wilcox.test puede generar la información necesaria para nosotros, así que esto es sencillo:

> wilcox.test(pd,mu=1.1,conf.int=TRUE)

    Wilcoxon signed rank test

data:  pd
V = 72, p-value = 0.5245
alternative hypothesis: true location is not equal to 1.1
95 percent confidence interval:
 0.94 1.42
sample estimates:
(pseudo)median 
        1.1775 

y esto también se puede trazar:

boxp with signed rank interval for pseudomedian

[La razón por la que el intervalo del boxplot es más amplio es que el error estándar de una mediana en la normalidad (que es la suposición que subyace al cálculo basado en la IQR) tiende a ser mayor que el de una pseudomediana cuando los datos son razonablemente normales].

Y, por supuesto, uno podría querer añadir los datos reales al gráfico:

same plot with jittered strip chart under the interval


Valor Z

R utiliza la suma de los rangos positivos como su estadística de prueba (no es la misma estadística que se discute en la página de Wikipedia sobre la prueba).

Hollander y Wolfe dan la media de la estadística como $n(n+1)/4$ y la varianza como $n(n+1)(2n+1)/24$ .

Por lo tanto, para sus datos, se trata de una media de 60 y una desviación estándar de 17,61 y un valor z de 0,682 (ignorando la corrección de continuidad)


El código que utilicé para generar el cuarto gráfico (a partir del cual también se pueden hacer los anteriores omitiendo las partes innecesarias) es un poco tosco (es sobre todo específico para la pregunta, en lugar de ser una función de trazado general), pero supuse que alguien podría quererlo:

notch1len <- function(x) {
  stats <- stats::fivenum(x, na.rm = TRUE)
  iqr <- diff(stats[c(2, 4)])
  (1.96*1.253/1.35)*(iqr/sqrt(sum(!is.na(x))))
}

w <- notch1len(pd)
m <- median(pd)

boxplot(pd,horizontal=TRUE,boxwex=.4)

abline(v=1.1,col=8)
points(c(m-w,m+w),c(1,1),col=2,lwd=6,pch="|")

ci=wilcox.test(pd,mu=1.1,conf.int=TRUE)$conf.int                       #$
est=wilcox.test(pd,mu=1.1,conf.int=TRUE)$estimate

stripchart(pd,pch=16,add=TRUE,at=0.7,cex=.7,method="jitter",col=8)

points(c(ci,est),c(0.7,0.7,0.7),pch="|",col=4,cex=c(.9,.9,1.5))
lines(ci,c(0.7,0.7),col=4)

Puede que vuelva y publique más código funcional más adelante.

6voto

Nick Cox Puntos 22819

Si le gustan los boxplots, también puede mostrar un único boxplot con una línea u otra referencia que muestre su valor hipotético. (@Glen_b publicó una respuesta con un excelente ejemplo sencillo precisamente cuando estaba escribiendo esto por primera vez).

Es discutible que los boxplots, ahora muy populares, se utilicen masivamente para la exploración de una y dos muestras. (Su verdadero valor, en mi opinión, es cuando se comparan muchos conjuntos de valores, con un número de muestras o grupos o variables más bien de 10, 30 o 100, y hay una gran necesidad de ver patrones generales en medio de una masa de posibles detalles).

El punto clave es que con sólo una o dos muestras (grupos, variables), se tiene espacio en un gráfico para mostrar muchos más detalles, detalles que podrían ser interesantes o importantes para la comparación. Con un buen diseño, esos detalles no tienen por qué distraer en la comparación visual.

Evidentemente, en las versiones más habituales, el gráfico de caja suprime todo detalle en su caja, mostrando la mitad de los datos, excepto en la medida en que la posición de la mediana dentro de la caja transmite alguna información. Dependiendo de las reglas exactas utilizadas, como la convención de 1,5 IQR de mostrar los puntos de datos individualmente si y sólo si están a 1,5 IQR o más del cuartil más cercano, es incluso posible que el gráfico de caja suprima la mayoría de los detalles sobre la otra mitad de los datos. A menudo, y quizás incluso normalmente, esos detalles pueden ser irrelevantes para algo como una prueba de Wilcoxon, pero estar preparado para ver algo esclarecedor en la visualización de los datos es siempre una buena idea.

Una visualización que sigue siendo drásticamente infrautilizada en muchos campos es el gráfico de cuantiles, una visualización de los valores ordenados frente a una probabilidad acumulada asociada. (Por otras razones ligeramente técnicas, esta probabilidad acumulada no suele ser $1/n, \cdots, n/n$ para el tamaño de la muestra $n$ pero algo como $(i - 0.5)/n$ para el rango $i$ siendo 1 el rango del valor más pequeño).

Aquí están sus datos de ejemplo con una línea de referencia añadida para 1.1.

enter image description here

En otros ejemplos, los puntos clave son

  • Para las comparaciones de dos muestras, es fácil elegir entre la superposición de trazos, la yuxtaposición de trazos o el uso de gráficos relacionados, como los gráficos de cuantiles.

  • El gráfico funciona bien en un rango de tamaños de muestra.

  • Los valores atípicos, la granularidad (muchos empates), las brechas, la bimodalidad o la multimodalidad se mostrarán como o mucho más claramente que en los gráficos de caja.

  • Los gráficos de cuantiles encajan bien con las transformaciones monótonas, lo que no ocurre con los gráficos de caja.

Algunos querrán señalar que los gráficos de distribución acumulativa o de función de supervivencia muestran la misma información, y eso me parece bien.

Ver los libros de W.S. Cleveland (detalles en http://store.hobart.com/ ) para la defensa restringida pero eficaz de los gráficos de cuantiles.

Otro gráfico muy útil es el gráfico de puntos o de franjas (que también recibe muchos otros nombres), pero yo quería hacer sonar aquí una pequeña trompeta para los gráficos de cuantiles.

Los detalles de la R los dejo para otros. Me centro aquí en la cuestión más general de los gráficos estadísticos, que claramente atraviesa la ciencia estadística y todas las posibilidades de software.

Por cierto, no conozco la historia de fondo pero el nombre wilcox.test en R me parece una mala elección. Así, te ahorras teclear dos caracteres, pero el nombre fomenta la confusión, entre otras cosas porque hay personas del pasado y del presente en campos estadísticos que se llaman Wilcox. La falta de justicia para Mann y Whitney es otro detalle. La persona a la que se homenajea es Wilcoxon.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X