Similar a ... que no tiene la respuesta que estoy buscando.
El conjunto de datos tiene una distribución normal.
Para el proyecto en el que estoy trabajando, los valores atípicos tienen que ser determinado a lo largo de los residuos de la cría de datos. Queremos eliminar los datos de los que es más probable que sea causado por los errores de entrada. Todos los valores correctos son valiosos, por lo que queremos minimizar el riesgo de pérdida de estos. Después de la detección de valores atípicos, los datos serán enviados a las personas que comprobar los valores atípicos que acaba de caer fuera de los límites.
Cuando google para determinar los valores atípicos se muestra cómo determinar los valores extremos el uso de la Inter Quartile Range (IQR)
. Sin embargo, mi supervisor y otras personas que tienen que trabajar con los datos después de realizar el análisis no tiene la "sensación" de este método. Están acostumbrados a trabajar con standard deviation
y tienen un "sentimiento".
Me pregunto si se debe calcular los límites de uso de un multiplicador de la desviación estándar o el uso de los inter-cuartil rango. Me tendrá que ser capaz de justificar mi elección.
La forma habitual para determinar los valores extremos es el cálculo de una parte superior e inferior de la valla con el Inter Cuartil Rango (IQR). Esto se realiza de la siguiente manera:
First Quartile = Q1
Third Quartile = Q3
IQR = Q3 - Q1
Multiplier:
This is usually a factor of 1.5 for normal outliers, or 3.0 for extreme outliers.
The multiplier would be determined by trial and error.
Lower fence = Q1 - (IQR * multiplier)
Upper fence = Q3 + (IQR * multiplier)
Cálculo de límites utilizando la desviación estándar se haría de la siguiente manera:
Lower fence = Mean - (Standard deviation * multiplier)
Upper fence = Mean + (Standard deviation * multiplier)
We would be using a multiplier of ~5 to start testing with.
Gracias de antemano :)
Actualización de cómo lo hicimos
Nos fuimos para la desviación Estándar del método, si los valores atípicos extremos se encuentran, por ejemplo, por error tipográfico. Que son corregidas por el cambio o eliminación de sus observaciones y ejecuta de nuevo el análisis.
Editar: O el LOCO método que sea mejor para determinar los valores atípicos?
Edit2, información adicional acerca de mis datos para Kjetil
Tengo la cría de datos, por ejemplo a los efectos de que me quedo con la ganancia diaria de peso.
El objetivo de la recogida de datos, es para obtener más información acerca de los cerdos y predecir qué líneas de sangre podría ser bueno para el futuro de la cría.
En la actualidad hay algunos filtros básicos que se aplican antes de que los datos se coloca en la base de datos, estos cuenta para el peor error tipográfico. Sin embargo hay un montón de datos, digamos que un cerdo crece 48 kilogramos, que no suena raro. Aunque si te das cuenta de que solo estaba a una granja para un par de días que de repente resulta imposible.
Puedo realizar una regresión lineal en la ganancia diaria de peso, entonces quiero para establecer los valores atípicos en los residuos y los marca como que no cumple con los requisitos. Lo que quiero decir con valores atípicos: imposible o muy poco probable de datos, causado por cualquiera de medida incorrecta o errónea de entrada
Edit: detalles Adicionales
La empresa en la que trabajo para la estimación de valores de cría basado en un montón de diferentes características. En la actualidad, los datos pre-procesados por determinados límites y protocolos. Estos límites son, por ejemplo, un minuto de 0kg y un máximo de 999kg para el peso de un cerdo. Yo no sé mucho acerca de los protocolos. Creo que uno de ellos es la fecha de la primera y la última medición de un cerdo tiene que ser entre 60 a 90 días a partir de la simpatia. La tarea que me dieron es el uso de modelos estadísticos para obtener una lista de residuos. Para estos residuos que tengo para determinar los valores extremos para eliminar datos erróneos puntos. No queremos que los datos generados por un error humano para influir en el proceso de determinación de los valores de cría. Ejemplo: Cerdos crecen un promedio de 900 gramos al día. El cerdo crece Un 1450 gramos al día, hay un 50 gramos de varianza que puede ser explicada por sexe, 150 gramos por la línea de cría y otros 100 por otros factores. Esto deja una ganancia diaria de peso de 225 gramos, lo que nosotros directamente no se puede explicar. Cerdo Un obtendría un positivo valor de cría para el rasgo de la ganancia diaria. Estos datos son interesantes para mi empresa.
Estos son los actuales valores atípicos para el rasgo de la ganancia diaria. La línea azul es de 3,5 veces el rango intercuartil en la parte superior de la Q3, la línea roja es de 1.5 veces el rango intercuartil resta de Q1. Nota: Después de una discusión con mi supervisor hemos acordado el rango en la parte inferior y la parte superior debe ser la misma. Como el objetivo no es sólo para obtener el mejor de los cerdos, pero también las menos productivas. El conjunto de datos debe ser lo más completa posible. He cambiado esto en mi versión más reciente.
He aquí un qqnorm() de la parcela de el mismo conjunto de datos como la de arriba de la parcela
Los datos pertenecientes a las dos gráficas de arriba, como usted puede ver, hay 1327 parte inferior y 1000 superior de la valla de valores atípicos:
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-10689.0000 -70.2550 3.3494 75.0470 8832.6000
Residual standard error: 143.7 on 823393 degrees of freedom
Multiple R-squared: 0.3154, Adjusted R-squared: 0.3149
[1] "Standard deviation outliers:"
[1] "Lower Fence: -430.990996984795 Upper fence: 430.984517801475"
[1] "Bottom outliers: 2347"
[1] "Top outliers : 1767"
[1] "Interquartile range outliers:"
[1] "Lower Fence: -506.16394780146 Upper fence: 510.955797895144"
[1] "Bottom outliers: 1327"
[1] "Top outliers : 1000"
[1] "Mean : -0.00323959165997404"
[1] "Median : 3.34938945228498"
[1] "IQR : 145.302820813801"
[1] "Standard dev.. : 143.662585797712"