Supongamos que tengo una distribución normal de los datos. Para cada elemento de los datos que desee comprobar cómo muchos de SDs está lejos de la media. No podría ser diferente de los demás en los datos (probablemente sólo es uno, pero también podría ser dos o tres) o no, pero este valor atípico es básicamente lo que estoy buscando. ¿Tiene sentido excluir temporalmente el elemento actualmente estoy buscando en el cálculo de la media y la SD? Mi pensamiento es que si es cerca de la media, no tiene ningún tipo de impacto. Si es un valor atípico, es posible sesgo en el cálculo de la media y SD y menor la probabilidad de que sea detectado. Yo no soy un estadístico, por lo que cualquier ayuda es muy apreciada.
Respuesta
¿Demasiados anuncios?Puede parecer contra-intuitivo, pero utilizando el enfoque que usted describe no tienen sentido (para tomar su redacción, prefiero escribir "puede llevar a resultados muy diferentes de los de intención") y que nunca se debe hacer es: los riesgos de no trabajar son consecuentes y además, no existe una manera más sencilla, mucho más segura y la mejor alternativa disponible sin costo adicional.
En primer lugar, es cierto que si hay un único valor atípico, entonces usted va a encontrar finalmente mediante el procedimiento que se sugiere. Pero, en general (cuando no puede ser más que una sola de valores atípicos en los datos), el algoritmo que se sugieren rompe completamente, en el sentido de que potencialmente lleva a usted a rechazar un buen punto de datos como un valor atípico o mantener los valores atípicos como buenos puntos de datos con consecuencias potencialmente catastróficas.
A continuación, doy un simple ejemplo numérico donde la regla que proponemos se rompe y, a continuación, propongo una manera mucho más segura y más alternativa, pero antes voy a explicar) lo que está mal con el método que te proponemos y b) lo que el suele preferir la alternativa a es.
En esencia, usted puede utilizar la distancia de observación de la licencia con una media y desviación estándar de los datos para detectar valores atípicos debido a que las estimaciones que se use (dejar uno fuera media y desviación estándar) son aún tiende a ser arrastrado hacia el resto de los valores atípicos: esto se llama el efecto de enmascaramiento.
En pocas palabras, hay una forma sencilla de detectar de forma fiable los valores atípicos es el uso de la idea general que se sugiere (distancia a partir de la estimación de la ubicación y la escala), pero la sustitución de los estimadores (dejar uno fuera media, sd) por sólidas, es decir, las estimaciones diseñado para ser mucho menos susceptible de ser influido por los valores extremos.
Considere este ejemplo, donde puedo agregar 3 valores atípicos a 47 genuino observaciones extraídas de una Normal 0,1:
n <- 50
set.seed(123) # for reproducibility
x <- round(rnorm(n,0,1), 1)
x[1] <- x[1]+1000
x[2] <- x[2]+10
x[3] <- x[3]+10
El código a continuación se calcula la outlyingness índice basado en el dejar uno fuera la media y la desviación estándar (por ejemplo, el enfoque que se sugieren).
out_1 <- rep(NA,n)
for(i in 1:n){ out_1[i] <- abs( x[i]-mean(x[-i]) )/sd(x[-i]) }
y este código produce la trama se ve a continuación.
plot(x, out_1, ylim=c(0,1), xlim=c(-3,20))
points(x[1:3], out_1[1:3], col="red", pch=16)
La imagen 1 muestra el valor de su outlyingness índice como una función del valor de las observaciones (el más lejano de los valores atípicos se encuentra fuera del alcance de esta parcela, pero los otros dos son mostrados como puntos rojos). Como se puede ver, excepto el más extremo, un outlyingness índice construido como usted sugiere no revelar los valores atípicos: de hecho, la segunda y la tercera (más leve) valores atípicos ahora incluso tienen un valor (en su outlyingness índice) más pequeño que todos los auténticos observaciones!...Bajo el enfoque de que usted sugiere, uno podría mantener estos dos extremos de los valores atípicos en el conjunto de la auténtica observaciones, lo que hace que el uso de los 49 restantes observaciones como si fueran de la misma homogénea proceso, dándole una última estimación de la media y sd basado en estos 49 puntos de datos de 0.45 y 2.32 muy pobre descripción de cualquiera parte de la muestra!
El contraste de los resultados con los resultados que se habrían obtenido utilizando un valor atípico regla de detección basado en la mediana y los locos donde el outlyingness de punto de $x_i$ wrt para un vector de datos $X$ es
$$O(x_i,X)=\frac{|x_i-\mbox{med}(X)|}{\mbox{mad}(X)}$$
where $\mbox{med}(X)$ is the median of the entries of $X$ (all of them, without exclusion) and $\mbox{mad}(X)$ es su mediana desviación absoluta veces 1.4826 (I aplazar hasta el vinculado artículo de wiki para obtener una explicación de dónde viene este número desde ya que es ortogonal a la cuestión principal aquí).
En R, esta segunda outlyingness índice puede ser calculado como:
out_2 <- abs( x-median(x) )/mad(x)
y trazado (como antes) con:
plot(x, out_2, ylim=c(0,15), xlim=c(-3,20))
points(x[1:3], out_2[1:3], col="red", pch=16)
Imagen 2 parcelas el valor de esta alternativa outlyingness índice para el mismo conjunto de datos. Como se puede ver, ahora los tres valores atípicos se revela claramente como tales. Por otra parte, esta la detección de valores atípicos regla tiene algunas establecido propiedades estadísticas. Esto conduce, entre otras cosas, para utilizable corte de reglas. Por ejemplo, si el genuinos parte de los datos se puede suponer que se pueden extraer de una distribución simétrica con finito segundo momento, usted puede rechazar todos los puntos de datos para que
$$\frac{|x_i-\mbox{med}(X)|}{\mbox{mad}(X)}>3.5$$
como valores atípicos. En el ejemplo anterior, la aplicación de esta regla se llevará a marcar correctamente la observación 1,2 y 3. Rechazando estas, la media y sd de el resto de observaciones es de 0.021 y 0,93 manera receptiva, una mejor descripción de los genuinos parte de la muestra!