10 votos

Determinar los valores atípicos mediante IQR o la desviación estándar?

Similar a ... que no tiene la respuesta que estoy buscando.

El conjunto de datos tiene una distribución normal.

Para el proyecto en el que estoy trabajando, los valores atípicos tienen que ser determinado a lo largo de los residuos de la cría de datos. Queremos eliminar los datos de los que es más probable que sea causado por los errores de entrada. Todos los valores correctos son valiosos, por lo que queremos minimizar el riesgo de pérdida de estos. Después de la detección de valores atípicos, los datos serán enviados a las personas que comprobar los valores atípicos que acaba de caer fuera de los límites.

Cuando google para determinar los valores atípicos se muestra cómo determinar los valores extremos el uso de la Inter Quartile Range (IQR). Sin embargo, mi supervisor y otras personas que tienen que trabajar con los datos después de realizar el análisis no tiene la "sensación" de este método. Están acostumbrados a trabajar con standard deviation y tienen un "sentimiento".

Me pregunto si se debe calcular los límites de uso de un multiplicador de la desviación estándar o el uso de los inter-cuartil rango. Me tendrá que ser capaz de justificar mi elección.

La forma habitual para determinar los valores extremos es el cálculo de una parte superior e inferior de la valla con el Inter Cuartil Rango (IQR). Esto se realiza de la siguiente manera:

First Quartile = Q1
Third Quartile = Q3
IQR = Q3 - Q1

Multiplier: 
    This is usually a factor of 1.5 for normal outliers, or 3.0 for extreme outliers. 
    The multiplier would be determined by trial and error.

Lower fence = Q1 - (IQR * multiplier)
Upper fence = Q3 + (IQR * multiplier)

Cálculo de límites utilizando la desviación estándar se haría de la siguiente manera:

Lower fence = Mean - (Standard deviation * multiplier)
Upper fence = Mean + (Standard deviation * multiplier)

We would be using a multiplier of ~5 to start testing with.

Gracias de antemano :)


Actualización de cómo lo hicimos

Nos fuimos para la desviación Estándar del método, si los valores atípicos extremos se encuentran, por ejemplo, por error tipográfico. Que son corregidas por el cambio o eliminación de sus observaciones y ejecuta de nuevo el análisis.


Editar: O el LOCO método que sea mejor para determinar los valores atípicos?


Edit2, información adicional acerca de mis datos para Kjetil

Tengo la cría de datos, por ejemplo a los efectos de que me quedo con la ganancia diaria de peso.
El objetivo de la recogida de datos, es para obtener más información acerca de los cerdos y predecir qué líneas de sangre podría ser bueno para el futuro de la cría.

En la actualidad hay algunos filtros básicos que se aplican antes de que los datos se coloca en la base de datos, estos cuenta para el peor error tipográfico. Sin embargo hay un montón de datos, digamos que un cerdo crece 48 kilogramos, que no suena raro. Aunque si te das cuenta de que solo estaba a una granja para un par de días que de repente resulta imposible.

Puedo realizar una regresión lineal en la ganancia diaria de peso, entonces quiero para establecer los valores atípicos en los residuos y los marca como que no cumple con los requisitos. Lo que quiero decir con valores atípicos: imposible o muy poco probable de datos, causado por cualquiera de medida incorrecta o errónea de entrada


Edit: detalles Adicionales

La empresa en la que trabajo para la estimación de valores de cría basado en un montón de diferentes características. En la actualidad, los datos pre-procesados por determinados límites y protocolos. Estos límites son, por ejemplo, un minuto de 0kg y un máximo de 999kg para el peso de un cerdo. Yo no sé mucho acerca de los protocolos. Creo que uno de ellos es la fecha de la primera y la última medición de un cerdo tiene que ser entre 60 a 90 días a partir de la simpatia. La tarea que me dieron es el uso de modelos estadísticos para obtener una lista de residuos. Para estos residuos que tengo para determinar los valores extremos para eliminar datos erróneos puntos. No queremos que los datos generados por un error humano para influir en el proceso de determinación de los valores de cría. Ejemplo: Cerdos crecen un promedio de 900 gramos al día. El cerdo crece Un 1450 gramos al día, hay un 50 gramos de varianza que puede ser explicada por sexe, 150 gramos por la línea de cría y otros 100 por otros factores. Esto deja una ganancia diaria de peso de 225 gramos, lo que nosotros directamente no se puede explicar. Cerdo Un obtendría un positivo valor de cría para el rasgo de la ganancia diaria. Estos datos son interesantes para mi empresa.

Estos son los actuales valores atípicos para el rasgo de la ganancia diaria. La línea azul es de 3,5 veces el rango intercuartil en la parte superior de la Q3, la línea roja es de 1.5 veces el rango intercuartil resta de Q1. Nota: Después de una discusión con mi supervisor hemos acordado el rango en la parte inferior y la parte superior debe ser la misma. Como el objetivo no es sólo para obtener el mejor de los cerdos, pero también las menos productivas. El conjunto de datos debe ser lo más completa posible. He cambiado esto en mi versión más reciente.

enter image description here


He aquí un qqnorm() de la parcela de el mismo conjunto de datos como la de arriba de la parcela

enter image description here


Los datos pertenecientes a las dos gráficas de arriba, como usted puede ver, hay 1327 parte inferior y 1000 superior de la valla de valores atípicos:

Residuals:
       Min.     1st Qu.      Median     3rd Qu.        Max. 
-10689.0000    -70.2550      3.3494     75.0470   8832.6000 


Residual standard error: 143.7 on 823393 degrees of freedom
Multiple R-squared: 0.3154, Adjusted R-squared: 0.3149
[1] "Standard deviation outliers:"
[1] "Lower Fence:  -430.990996984795      Upper fence:  430.984517801475"
[1] "Bottom outliers: 2347"
[1] "Top outliers   : 1767"
[1] "Interquartile range outliers:"
[1] "Lower Fence:  -506.16394780146     Upper fence:  510.955797895144"
[1] "Bottom outliers: 1327"
[1] "Top outliers   : 1000"
[1] "Mean           : -0.00323959165997404"
[1] "Median         : 3.34938945228498"
[1] "IQR            : 145.302820813801"
[1] "Standard dev.. : 143.662585797712"

4voto

kjetil b halvorsen Puntos 7012

Parece que tienes muchos valores atípicos que sólo mira a los residuos después de la colocación, por ejemplo, con mínimos cuadrados ordinarios, podría ser engañosa---algunos puntos de la muestra podría haber una alta influencia (o "apalancamiento") que el ajuste se cambia, tal vez engañoso, para que los residuos correspondientes a los altos puntos de apalancamiento pequeño. Así que probablemente necesidades robusto métodos de ajuste!

Puedes empezar por mirar las respuestas a Cómo optimizar una regresión mediante la eliminación de 10% "peor" puntos de datos? y tal vez buscar en este sitio para que el robusto etiqueta: http://stats.stackexchange.com/questions/tagged/robust

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X