En tu caso, creo que la varianza no es el enfoque correcto (véase la Nota al final). Tal vez usted podría considerar el uso de boxplots para "la detección de valores atípicos'.
He aquí un breve ejemplo de uso exponencial
de datos, los cuales tienden a tener valores atípicos. (La distribución exponencial es a menudo
se utilizan para modelar los tiempos de espera para eventos o vida útil de los componentes electrónicos.) Considere los siguientes datos, generados
con R de software estadístico. Veinte observaciones son redondeadas a un lugar y ordenada:
x = sort(round(rexp(20, .01), 1)); x
[1] 0.2 0.7 2.6 14.7 28.3 31.1 39.3 45.0 48.7 56.5
[11] 63.0 77.0 77.7 80.2 81.9 96.8 103.6 110.9 157.2 245.1
La muestra estadística se muestra a continuación. A grandes rasgos el cuartil inferior 30.40,
la mediana de 59.75, y el cuartil superior 85.62 dividen los datos ordenados en
cuatro bloques de cinco observaciones cada uno. El rango intercuartil
IQR $= Q_3 - Q_1 = 55.225$ es el ancho de la caja en un boxplot y un
importante medida de variabilidad para la detección de valores atípicos.
summary(x); sd(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.20 30.40 59.75 68.03 85.62 245.10
[1] 58.4176 # standard deviation
[1] 55.225 # inter-quartile range
Los extremos de la caja en un boxplot están en el cuartil, la mediana está marcada por
una pesada barra dentro de la caja.
boxplot(x, horizontal=T, col="skyblue2")
La observación más grande 245.1 se señaló como una de las demás, y se representan por separado
en el boxplot. Se observa como un valor atípico porque es mayor que
$Q_3 + 1.5(\text{IQR}) = 168.46.$ (Esto es conocido como el `1.5 IQR criterio".
Este criterio es muy popular, pero hay otros.)
Por favor, tenga en cuenta que no hay nada "malo" con la observación 245.1. Como Yo
dicho antes, es la naturaleza de la exponencial de datos que tienen valores atípicos. (Probablemente sería mejor mantener el valor atípico al realizar el análisis de datos.)
Para datos como el tuyo, supongo que el hilo que queda observaciones lejos
por encima de su red de soporte sería marcado como valores atípicos. (A continuación, usted tendría
a considerar para sus datos en qué circunstancias podría haber producido estos valores atípicos, y cómo los valores atípicos deben ser manejados en el análisis de datos.)
La mayoría de las estadísticas libros y muchos sitios web que tienen información adicional acerca de
boxplots, los valores atípicos, y cómo considerar los valores atípicos en el análisis de datos.
Nota: Desviaciones (y desviaciones estándar) no funcionan bien para los demás
la detección. Si $X_i$ es un valor atípico, entonces, el término se $(X_i - \bar X)^2$ en el
la varianza puede ser inusualmente grande. Por lo que medir la distancia de una observación
de $\bar X$ en términos de desviaciones estándar puede ser engañoso debido a que
el valor atípico en sí tiene un gran efecto en la varianza (y, por lo tanto, la desviación estándar). Por el contrario, los valores atípicos no tienen mucho efecto sobre el tamaño de
el rango intercuartil (IQR). Por lo tanto IQR es más eficaz en la detección de valores atípicos.
En el ejemplo, el cambio de la última observación de 245.1 100.0 reduce la desviación estándar de la muestra a partir de 58,42 a 41.96, pero no cambia el IQR.