12 votos

Qué tan preciso es IQR para la detección de valores atípicos

Estoy escribiendo un script que analiza los tiempos de ejecución de procesos. No estoy seguro de su distribución, pero quiero saber si se ejecuta el proceso "muy largo". Hasta ahora he estado usando 3 desviaciones estándar de los últimos tiempos de ejecución (n>30), pero me dijeron que no ofrece nada útil si los datos no es normal (lo cual no parece ser). He encontrado otro valor atípico prueba de que los estados:

Encontrar el inter cuartil rango, que es IQR = Q3 - Q1, donde Q3 es el tercer cuartil y Q1 es el primer cuartil. Luego de encontrar a estos dos números:

a) Q1 - 1.5*IQR b) Q3 + 1.5*IQR

El punto es un valor atípico si < o > b

Mis datos tiende a ser cosas como 2sec, 3sec, 2 seg, 5 seg, 300 s, 4sec, .... donde 300 s es, obviamente, un valor atípico.

Qué método es el mejor? El IQR método o la desviación std método?

15voto

Nick Cox Puntos 22819

De verdad que hay libros enteros sobre los valores atípicos.

La habitual respuesta específica es que la desviación estándar es jalada por los valores extremos, por lo que cualquier ley que se basa en la SD puede realizar mal.

El Tukey reglas en cuartiles +/- 1.5 IQR usted cita salió de trabajo hecho a mano con pequeñas y de tamaño moderado conjuntos de datos en la década de 1970, y fueron diseñados para indicar los valores que usted puede ser que desee pensar acerca de forma individual. No está claro que llevan más de para mucho más grandes conjuntos de datos, ni que se aplican cuando se espera una considerable asimetría.

Una respuesta más general es que una excepción a la regla es bueno si se hace siempre las decisiones correctas, pero ¿cómo se puede saber?

Esto es relativo territorio, pero yo esperaría un valor atípico para sobresalir en una gráfica como la de ser muy diferente de los demás. Pero a menudo es (en general?) una decisión difícil decir la diferencia entre lo que usted espera en un pesado de cola de la distribución y de lo que es demasiado salvaje a considerar como algo más que un valor atípico. A veces transformación hace diferente de los demás se ven mucho más común.

Además, si el uso de métodos robustos podría preocuparse un poco menos sobre, precisamente, el que los valores de mérito de ser llamados atípicos, pero en lugar de preocuparse acerca de los valores atípicos en general.

1voto

Usted dice que usted no está seguro de la distribución, pero los procesos que están en curso son fáciles de recoger y evaluar para la distribución. Sólo tienes que guardar un montón de veces y analizar aquellos. Dada la época en la que publicó usted podría conseguir mucho en un par de horas.

Su búsqueda para una regla para un valor atípico no tiene por qué ser tan general. Puede ser específico de su tarea. Usted es capaz de recoger gran cantidad de datos. Recopilar, examinar y, a continuación, decidir cuando un proceso es demasiado largo. Tal vez un IQR enfoque en función del trabajo, pero usted puede utilizar el conjunto de datos, o un ajuste paramétrico, para hacer simulaciones y ver si funciona bien. Lo mismo va para la SD. Puede ser que >50 años es demasiado tiempo y eso es todo lo que usted necesita.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X