37 votos

Detección de valores atípicos en distribuciones sesgadas

Según la definición clásica de un valor atípico como un punto de datos fuera del 1,5* IQR del cuartil superior o inferior, se supone una distribución no sesgada. En el caso de las distribuciones asimétricas (exponencial, Poisson, geométrica, etc.), ¿la mejor manera de detectar un valor atípico es analizar una transformación de la función original?

Por ejemplo, las distribuciones que se rigen vagamente por una distribución exponencial, podrían transformarse con una función logarítmica - ¿en qué momento es aceptable buscar valores atípicos basándose en la misma definición de IQR?

4 votos

Hay muchas preguntas en este sitio sobre la evaluación de los valores atípicos. Una cosa que tendrías que añadir aquí para obtener una respuesta razonable es lo que realmente estás tratando de hacer o averiguar. Pero para empezar, el 1.5*IQR La definición de "atípico" no es universalmente aceptada. Intenta descargar tu pregunta y ampliar el problema que intentas resolver.

1 votos

La afirmación de que un valor superior a 1,5 IQR es un valor atípico no tiene sentido. Los datos superiores a 1,5 IQR serían totalmente coherentes con un número infinito de distribuciones, y a medida que el tamaño de la muestra se hace grande, se podría tener una confianza casi perfecta en que tales datos NO eran atípicos.

27voto

AdamSane Puntos 1825

Según una definición clásica de un valor atípico como un punto de datos fuera del 1,5* IQR del cuartil superior o inferior,

Esta es la regla para identificar los puntos fuera de los extremos de los bigotes en un boxplot. El propio Tukey se opondría sin duda a llamarlos valores atípicos por este motivo (no consideraba necesariamente que los puntos fuera de esos límites fueran valores atípicos). Se trataría más bien de puntos que -si se espera que los datos procedan de una distribución algo similar a la normal- podrían someterse a una investigación más profunda (como comprobar que no se han transpuesto dos dígitos, por ejemplo) -- como mucho podrían ser potencial los valores atípicos. Como señala Nick Cox en los comentarios bajo esta respuesta En el caso de que se produzca una cola de muchos puntos de este tipo, se tomaría más como un indicador de que una reexpresión podría ser adecuada que como una indicación de la necesidad de considerar los puntos como valores atípicos.

hay una suposición de una distribución no asimétrica.

Supuse que con "no sesgado" te referías a simétrico. Entonces la suposición es más que eso. Una distribución de cola pesada pero simétrica podría tener muchos puntos fuera de los límites de esa regla.

En el caso de las distribuciones sesgadas (exponencial, Poisson, geométrica, etc.), ¿es la mejor manera de detectar un valor atípico analizando una transformación de la función original?

Eso depende de lo que constituya un valor atípico para sus fines. No existe una definición única que se adapte a todos los propósitos; de hecho, por lo general, es mejor hacer otras cosas que (por ejemplo) elegir los valores atípicos y omitirlos.

Para la exponencial o la geométrica, podría hacer un cálculo similar al de un boxplot, pero que identificaría una fracción similar sólo en la cola derecha (no tendrá identificados los puntos del extremo inferior en una exponencial o geométrica) $^{\dagger}$ ... o podrías hacer otra cosa.

$\dagger$ En las muestras grandes de una distribución normal, el boxplot marca alrededor del 0,35% de los puntos en cada extremo, o alrededor del 0,7% en total. En el caso de una exponencial se podría marcar algún múltiplo de la mediana, por ejemplo. Si quiere marcar aproximadamente el 0,7% de los puntos en total para una exponencial real, eso sugeriría marcar los puntos más allá de unas 7,1 veces la mediana.

Si se marcan puntos por encima de 7,1 veces la mediana para n=1000, se suele acertar entre el 0,4% y el 1,1% de los valores:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Por ejemplo, las distribuciones que se rigen vagamente por una distribución exponencial, podrían transformarse con una función logarítmica - ¿en qué momento es aceptable buscar valores atípicos basándose en la misma definición de IQR?

Eso depende totalmente de lo que se entienda por "aceptable". Sin embargo, tenga en cuenta que

i) la distribución resultante no es realmente simétrica, sino claramente torcida a la izquierda.

enter image description here

Como resultado, normalmente sólo marcará puntos en el extremo izquierdo (es decir, cerca de cero, donde se espera que estén los valores exponenciales de todos modos) en lugar de a la derecha (donde podrían estar los "valores atípicos"), a menos que sean realmente extrema.

ii) la idoneidad de dicha norma va a depender en gran medida de lo que se haga.

Si le preocupa que el valor extraño de impar afecte a su inferencia, en general, probablemente sea mejor utilizar procedimientos robustos que identificar formalmente los valores atípicos.

Si realmente quiere utilizar una regla basada en la normalidad para datos transformados exponenciales o de Poisson, yo sugeriría al menos aplicarla a la raíz cuadrada $^{\ddagger}$ para una Poisson (siempre que la media no sea demasiado pequeña, debería ser más o menos normal) y a la raíz cúbica o incluso a la raíz cuarta para la exponencial (y quizás, por extensión, la geométrica).

$\ddagger$ o quizás $\sqrt{X+\frac{3}{8}}$ como en el Transformación de Anscombe

enter image description here

Para una exponencial, en muestras grandes el enfoque de la raíz cúbica tenderá a marcar puntos sólo en la cola superior (más o menos al mismo ritmo que los marca en la cola superior para una normal) y el enfoque de la raíz cuarta marca puntos en ambas colas (ligeramente más en la cola inferior, en total a algo cercano al 40% del ritmo que lo hace para una normal). De las posibilidades, la raíz cúbica tiene más sentido para mí que las otras dos, pero no aconsejaría necesariamente utilizarla como una regla rígida.

2 votos

"Una distribución de cola pesada pero simétrica podría tener muchos puntos fuera de los límites de esa regla". Siempre hay exactamente el 50% de los puntos dentro de la IQR, ¿no es así?

3 votos

@muraveill Efectivamente -- pero no siempre hay un 0,7% de puntos fuera $(Q_1-1.5\times \text{IQR},Q_3+1.5\times \text{IQR})$ que es la regla del boxplot que está en discusión.

0 votos

@Glen_b El umbral superior de rechazo de la exponencial en tu respuesta supone que se conoce el parámetro de desplazamiento (o theta). Creo que esto debería mencionarse.

16voto

Patrick Puntos 183

Responderé a tus preguntas en el orden inverso al que las has formulado, para que la exposición vaya de lo específico a lo general.

En primer lugar, consideremos una situación en la que se puede suponer que, a excepción de una minoría de valores atípicos, el grueso de los datos puede ser bien descrito por una distribución conocida (en su caso la exponencial).

Si $x$ tiene pdf:

$$p_X(x)=\sigma^{-1}\mbox{exp}\left(\frac{-(x-\theta)}{\sigma}\right),\;x>0;\sigma>0$$

entonces $x$ se dice que sigue una distribución exponencial (el caso especial en el que fijamos $\theta=0$ se denomina distribución de un parámetro o exponencial estándar).

El estimador MLE habitual de los parámetros es [0,p 506]:

$$\hat{\theta}=\min_i x_i$$

y

$$\hat{\sigma}=\mbox{ave}_ix_i-\min_i x_i$$

Este es un ejemplo en R :

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

el MLE de $\sigma$ es $\approx2.08$ .

Por desgracia, las estimaciones MLE son muy sensibles a la presencia de valores atípicos. Por ejemplo, si corrompo la muestra sustituyendo el 20% de los $x_i$ 's por $-x_i$ :

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

el MLE de $\sigma$ basado en la muestra corrupta es ahora $\approx11.12$ (!). Como segundo ejemplo, si corrompo la muestra sustituyendo el 20% del $x_i$ 's por $100x_i$ (por ejemplo, si el decimal está mal colocado por accidente):

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

el MLE de $\sigma$ basado en esta segunda muestra corrupta es ahora $\approx54$ (!).

Una alternativa al MLE crudo es (a) encontrar los valores atípicos utilizando un regla robusta de identificación de valores atípicos (b) apartarlos como datos espurios y (c) calcular el MLE en la parte no espuria de la muestra.

La más conocida de estas reglas robustas de identificación de valores atípicos es la regla med/mad propuesta por Hampel[3] que la atribuyó a Gauss (yo ilustré esta regla aquí ). En la regla med/mad, los umbrales de rechazo se basan en la suposición de que las observaciones genuinas de su muestra están bien aproximadas por una distribución normal.

Por supuesto, si se dispone de información adicional (como saber que la distribución de las observaciones genuinas está bien aproximada por una distribución de Poisson como en este ejemplo ) no hay nada que le impida transformar sus datos y utilizar la regla de rechazo de valores atípicos de referencia (el med/mad), pero me parece un poco incómodo transformar los datos para preservar lo que, después de todo, es una regla ad hoc.

Me parece mucho más lógico conservar los datos pero adaptar las reglas de rechazo reglas. Entonces, seguirías usando el procedimiento de 3 pasos que describí en el primer enlace de arriba, pero con el umbral de rechazo adaptado a la distribución que sospechas que tiene la parte buena de los datos. A continuación, doy la regla de rechazo en situaciones en las que las observaciones genuinas están bien ajustadas por una distribución exponencial. En este caso, puedes construir buenos umbrales de rechazo utilizando la siguiente regla:

1) estimación $\theta$ utilizando [1]:

$$\hat{\theta}'=\mbox{med}_ix_i-3.476\mbox{Qn}(x)\ln2$$

El Qn es una estimación robusta de la dispersión que no está orientada a los datos simétricos. Está ampliamente implementado, por ejemplo en el paquete R robustbase . Para los datos distribuidos exponencialmente, el Qn se multiplica por el factor de consistencia de $\approx3.476$ Para más detalles, véase [1].

2) rechazar como espurias todas las observaciones fuera de [2,p 188]

$$[\hat{\theta}',9(1+2/n)\mbox{med}_ix_i+\hat{\theta}']$$

(el factor 9 de la regla anterior se obtiene como el 7,1 de la respuesta de Glen_b anterior, pero utilizando un corte más alto. El factor (1+2/n) es un factor de corrección de muestras pequeñas que se obtuvo mediante simulaciones en [2]. Para tamaños de muestra suficientemente grandes, es esencialmente igual a 1).

3) utilizar el MLE en los datos no espurios para estimar $\sigma$ :

$$\hat{\sigma}'=\mbox{ave}_{i\in H}x_i-\mbox{min}_{i\in H}x_i$$

donde $H=\{i:\hat{\theta}'\leq x_i \leq 9(1+2/n)\mbox{med}_ix_i+\hat{\theta}'\}$ .

utilizando esta regla en los ejemplos anteriores, se obtendría

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

la estimación robusta de $\sigma$ es ahora $\approx2.05$ (muy cerca del valor MLE cuando los datos están limpios). En el segundo ejemplo:

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

La estimación robusta de $\sigma$ es ahora $\approx2.2$ (muy cerca del valor que habríamos obtenido sin los valores atípicos).

En el tercer ejemplo:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

La estimación robusta de $\sigma$ es ahora $\approx2.2$ (muy cerca del valor que habríamos obtenido sin los valores atípicos).

Un beneficio secundario de este enfoque es que produce un subconjunto de índices de observaciones sospechosas que deben apartarse del resto de los datos, quizá para ser estudiados como objeto de interés por derecho propio (los miembros de $\{i:i\notin H\}$ ).

Ahora, para el caso general en el que no tienes una buena distribución candidata que se ajuste a la mayor parte de tus observaciones, además de saber que una distribución simétrica no servirá, puedes utilizar el boxplot ajustado[4]. Se trata de una generalización del diagrama de caja que tiene en cuenta una medida (no paramétrica y resistente a los valores atípicos) de la asimetría de los datos (de modo que cuando la mayor parte de los datos es simétrica se reduce al diagrama de caja habitual). También puede comprobar este respuesta para una ilustración.

  • 0] Johnson N. L., Kotz S., Balakrishnan N. (1994). Continuous Univariate Distributions, Volume 1, 2nd Edition.
  • 1] Rousseeuw P. J. y Croux C. (1993). Alternativas a la desviación absoluta de la mediana. Journal of the American Statistical Association, Vol. 88, No. 424, pp. 1273--1283.
  • 2] J. K. Patel, C. H. Kapadia y D. B. Owen, Dekker (1976). Handbook of statistical distributions.
  • 3] Hampel (1974). The Influence Curve and Its Role in Robust Estimation. Journal of the American Statistical Association Vol. 69, No. 346 (Jun., 1974), pp. 383-393.
  • 4] Vandervieren, E., Hubert, M. (2004) "An adjusted boxplot for skewed distributions". Computational Statistics & Data Analysis Volumen 52, número 12, 15 de agosto de 2008, páginas 5186-5201.

4voto

Zizzencs Puntos 1358

En primer lugar, cuestionaría la definición, clásica o no. Un "valor atípico" es un punto sorprendente. Utilizar cualquier regla particular (incluso para distribuciones simétricas) es una idea errónea, especialmente hoy en día, cuando hay tantos conjuntos de datos enormes. En un conjunto de datos de (digamos) un millón de observaciones (no tan grande, en algunos campos), habrá muchos casos más allá del límite de 1,5 IQR que citas, incluso si la distribución es perfectamente normal.

En segundo lugar, sugeriría buscar valores atípicos en los datos originales. Casi siempre será más intuitivo. Por ejemplo, en el caso de los datos sobre ingresos, es bastante habitual tomar los registros. Pero incluso en este caso yo buscaría valores atípicos en la escala original (dólares o euros o lo que sea) porque tenemos una mejor percepción de esas cifras. (Si se toman registros, yo sugeriría el registro de base 10, al menos para la detección de valores atípicos, porque es al menos un poco intuitivo).

En tercer lugar, al buscar valores atípicos, hay que tener cuidado con el enmascaramiento.

Por último, estoy investigando el algoritmo de "búsqueda hacia delante" propuesto por Atkinson y Riani para varios tipos de datos y problemas. Parece muy prometedor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X