12 votos

¿Cómo puedo interpretar un gráfico de porcentaje de recorte frente a la media recortada?

Como parte de una pregunta de los deberes, me pidieron que calculara la media recortada de un conjunto de datos eliminando la observación más pequeña y la más grande, y que interpretara el resultado. La media recortada era menor que la media sin recortar.

Mi interpretación fue que esto se debía a que la distribución subyacente estaba sesgada positivamente, por lo que la cola izquierda es más densa que la cola derecha. Como resultado de esta asimetría, la eliminación de un dato alto arrastra la media hacia abajo más que la eliminación de uno bajo la empuja hacia arriba, porque, hablando informalmente, hay más datos bajos "esperando a ocupar su lugar". (¿Es esto razonable?)

Entonces empecé a preguntarme cómo afecta el porcentaje de recorte, así que calculé la media recortada $\bar x_{\operatorname{tr}(k)}$ para varios $k = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n$ . Tengo una interesante forma parabólica: Plot of trimming percentage vs. trimmed mean; forms a concave-up curve that looks roughly parabolic

No sé muy bien cómo interpretar esto. Intuitivamente, parece que la pendiente del gráfico debería ser (proporcional a) la asimetría negativa de la parte de la distribución dentro de $k$ puntos de datos de la mediana. (Esta hipótesis se confirma con mis datos, pero sólo tengo $n = 11$ Así que no estoy muy seguro).

¿Este tipo de gráfico tiene un nombre o es de uso común? ¿Qué información podemos obtener de este gráfico? ¿Existe una interpretación estándar?


Como referencia, los datos son: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

11voto

Nick Cox Puntos 22819

@gung y @kjetil b. halvorsen tienen razón.

He encontrado estos gráficos en

Rosenberger, J.L. y M. Gasko. 1983. Comparación de los estimadores de localización: Trimmed medias recortadas, medianas y trimeas. En Comprender el análisis de datos robusto y exploratorio , Eds. D.C. Hoaglin, F. Mosteller y J.W. Tukey, 297-338. New York: Wiley.

y

Davison, A.C. y D.V. Hinkley. 1997. Métodos Bootstrap y su aplicación. Cambridge: Cambridge University Press.

y dar más ejemplos en

Cox, N.J. 2013. Recorte al gusto. Revista Stata 13: 640-666. http://www.stata-journal.com/article.html?article=st0313 [acceso gratuito al pdf]

en el que se discuten muchos aspectos de los medios recortados.

Por lo que sé, el gráfico no tiene un nombre distinto. Un nombre distinto para cada gráfico posible sería en realidad una pequeña pesadilla: la terminología gráfica es ya un lío horrible. Yo lo llamaría simplemente gráfico de media recortada frente a número, fracción o porcentaje recortado (invirtiendo así la redacción del PO).

Para otros pequeños comentarios sobre el "versus", véase mi respuesta en Heteroscedasticidad en la regresión

EDIT: Para más información sobre el versus (sólo para los expertos en idiomas), véase aquí .

10voto

Sean Hanley Puntos 2428

Nunca había oído hablar de este gráfico, pero creo que es muy bonito; probablemente alguien lo haya hecho antes. Lo que puedes hacer con él es ver cómo se desplaza y/o estabiliza la media si consideras que diferentes proporciones de tus datos son valores atípicos. La razón por la que se obtiene la forma parabólica es que la distribución (inicial) está sesgada hacia la derecha en su conjunto, pero el grado de sesgo no es el mismo en el centro de la distribución. Para comparar, considere los gráficos de densidad del núcleo que se muestran a continuación.

enter image description here

A la izquierda están sus datos mientras se recortan uno a uno. A la derecha están estos datos: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416) que son cuantiles de una distribución lognormal estándar tomados de percentiles igualmente espaciados y multiplicados por 20 para que el rango de valores sea similar.

Sus datos comienzan con un sesgo a la derecha, pero en la fila 5, están sesgados a la izquierda, por lo que el recorte de más datos comienza a elevar la media. Los datos de la derecha mantienen un sesgo similar a medida que el recorte continúa.

A continuación se muestra su gráfico para los datos lognormales y los datos uniformes ( z = 1:11 , no hay inclinación, es decir, es perfectamente simétrico).

enter image description here enter image description here

4voto

kjetil b halvorsen Puntos 7012

No creo que este tipo de gráfico tenga nombre, pero lo que haces es razonable, y tu interpretación, creo que válida. Creo que lo que estás haciendo está relacionado con la función de influencia de Hampel, ver https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function especialmente la sección sobre la función de influencia empírica. Y su gráfico podría estar relacionado con alguna medida de asimetría de los datos, ya que, si sus datos fueran perfectamente simétricos, el gráfico sería plano. Deberías investigarlo.

            EDIT     

Una extensión de este gráfico es mostrar también el efecto de utilizar diferentes recortes a la izquierda y a la derecha. Dado que esto no está implementado en el mean con el argumento trim en R, escribí mi propia función de media recortada. Para obtener un gráfico más suave utilizo la interpolación lineal cuando la fracción de recorte implica eliminar un número no entero de puntos. Esto da la función:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

A continuación, simulo algunos datos y muestro el resultado como un gráfico de contorno:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

dando este resultado:

contour plot showing effect of trimming

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X