42 votos

Intervalo de confianza para la mediana

Tengo que encontrar un C.I. del 95% en la mediana y otros percentiles. No sé cómo abordar esto. Principalmente uso R como herramienta de programación.

32voto

Lev Puntos 2212

He aquí una ilustración sobre un conjunto de datos clásico de R:

> x       = faithful$waiting
> bootmed = apply(matrix(sample(x, rep=TRUE, 10^4*length(x)), nrow=10^4), 1, median)
> quantile(bootmed, c(.025, 0.975))
2.5% 97.5% 
 73.5    77 

que da un intervalo de confianza de (73,5, 77) sobre la mediana.

( Nota: Versión corregida, gracias a John . Utilicé $10^3$ en el nrow antes, lo que llevó a la confusión).

9 votos

A mí me parece sospechosamente estrecho. Utilizando funciones de library(boot) parece confirmarlo: > boot.ci(boot(x,function(x,i) median(x[i]), R=1000)) Intervalos : Nivel Normal Básico 95% (74,42, 78,22 ) (75,00, 78,49 ) Nivel Percentil BCa 95% (73,51, 77,00 ) (73,00, 77,00 )

2 votos

De nada Xi'an... Como nota aparte, siempre prefiero establecer el valor original de N en la matriz porque es una constante a través de varios tamaños de bootstrap que podría hacer. Por lo tanto, normalmente habría dicho ncol = length(x). Me parece que hay menos posibilidades de error de esa manera.

7 votos

Esto es sólo una forma ineficiente de calcular los cuantiles binomiales como en Respuesta de onestop .

31voto

Berek Bryan Puntos 349

Otro enfoque se basa en los cuantiles de la distribución binomial.
Por ejemplo:

> x=faithful$waiting
> sort(x)[qbinom(c(.025,.975), length(x), 0.5)]
[1] 73 77

4 votos

Me gusta la simplicidad de este... Los resultados se acercan al método bootstrap.

1 votos

Obviamente, esto es mucho más eficiente que el bootstrapping para el caso continuo, pero una desventaja es que no tiene en cuenta los rangos empatados. ¿Conoce alguna solución para esto?

0 votos

¿Puede utilizar simplemente quantile() en lugar de sort[]?

15voto

Christopher Puntos 1684

Consulta el remuestreo bootstrap. Busque en la ayuda de R la función boot. Dependiendo de tus datos con el remuestreo puedes estimar intervalos de confianza para casi todo.

0 votos

De acuerdo. Este es el mejor enfoque. Infrautilizado en las ciencias biomédicas, en mi opinión.

10 votos

Considere la posibilidad de estudiar el bootstrap suavizado para estimar los cuantiles de la población, ya que el boostrap convencional parece tener problemas en ese caso - se pueden encontrar referencias en este pdf . Si sólo está interesado en la mediana teórica, se puede utilizar el estimador de Hodges-Lehman, como el que proporciona, por ejemplo, R wilcox.test(..., conf.int=TRUE) función.

4voto

kylex Puntos 3796

Y hay otros enfoques: Uno se basa en la prueba de suma de rangos de Wilcoxon aplicada para una muestra con corrección de continuidad. En R esto se puede suministrar como:

wilcox.test(x,conf.level=0.95,alternative="two.sided",correct=TRUE)

Y está el CI de David Olive para la mediana discutido aquí:

CI para la mediana

2voto

Donato Puntos 108

El resultado basado en el enfoque qbinom no es correcto para muestras pequeñas. Supongamos que x tiene 10 componentes. Entonces qbinom(c(.025,.975),10,.5) da 2 y 8. El intervalo resultante no trata los estadísticos de orden en la cola inferior de forma simétrica con los de la cola superior; debería obtener 2 y 9, o 3 y 8. La respuesta correcta es 2 y 9. Puede comprobarlo con proc univariate en SAS. El truco aquí es que usted necesita no más de 0,025 de probabilidad por debajo y por encima; el cuantil inferior no hace esto, ya que da al menos 0,025 en o por debajo. Se salva en la parte inferior porque el recuento que debería ser 1 debería ser mapeado a la estadística de segundo orden, contando 0, y así el "fuera de uno" se cancela. Esta cancelación fortuita no se produce en la parte superior, y por lo tanto se obtiene la respuesta incorrecta aquí. El código sort(x)[qbinom(c(.025,.975),length(x),.5)+c(0,1)] casi funciona, y .5 puede sustituirse por otros valores de cuantiles para obtener intervalos de confianza para otros cuantiles, pero no será correcto cuando exista a tal que P[X<=a]=.025. Véase, por ejemplo, Higgins, Nonparametric Statisitcs.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X