15 votos

Hay una forma sencilla de detectar valores atípicos?

Me pregunto si hay una manera sencilla de detectar valores atípicos.

Para uno de mis proyectos, que era básicamente una correlación entre el número de veces que los encuestados participar en la actividad física en una semana y el número de veces que comen fuera de la casa (comida rápida) en una semana, me hice un diagrama de dispersión y, literalmente, se eliminan los puntos de datos que fueron extremas. (El diagrama de dispersión mostró una correlación negativa.)

Esto se basa en juicios de valor (basado en el diagrama de dispersión donde estos puntos de datos fueron claramente extrema). Yo no hice ninguna de pruebas estadísticas.

Me pregunto si esto es una buena manera de lidiar con los valores atípicos.

Tengo los datos de 350 personas de manera que las pérdidas de (digamos) 20 puntos de datos no es una preocupación para mí.

23voto

Zizzencs Puntos 1358

No hay sonido simple forma de eliminar los valores atípicos. Los valores extremos pueden ser de dos tipos:

1) errores de entrada de Datos. Estos son a menudo los más fáciles de identificar y siempre es más fácil de tratar. Si usted puede encontrar los datos correctos, correcta; si no, eliminarlo.

2) Legítimos de datos que es inusual. Esto es mucho más complicado. Para bivariado de datos como la suya, el valor atípico podría ser univariante y bivariante o.

a) Univariante. En primer lugar, "inusual" depende de la distribución y el tamaño de la muestra. Usted nos da el tamaño de la muestra de 350, pero ¿cuál es la distribución? Claramente no es normal, ya que es un relativamente pequeño número entero. Lo que es inusual en una Poisson no estaría bajo una binomial negativa. Me gustaría especie de sospecha de un cero-inflado binomial negativo de la relación.

Pero incluso cuando se tiene la distribución, la (posible) los valores extremos afectarán a los parámetros. Usted puede mirar en "dejar uno fuera" de las distribuciones, donde se compruebe si los datos de punto de q iba a ser una excepción si los datos de todos los puntos pero q. Incluso entonces, sin embargo, lo que si hay varios valores atípicos?

b) Bivariante. Este es en donde ni el valor de la variable es inusual en sí mismo, pero juntos son impares. Hay posiblemente apócrifa informe de que el censo dijo una vez que había 20,000 12 años de edad de las viudas en los Estados Unidos. 12 años de edad no son inusuales, las viudas no son bien, pero 12 años de edad de la viuda.

Dado todo esto, podría ser más sencillo para informar de un robusto medida de la relación.

19voto

mat_geek Puntos 1367

He hecho un montón de investigación sobre los valores atípicos, especialmente cuando trabajé en la energía de validación de datos en Oak Ridge, de 1978 a 1980. Hay pruebas formales para univariante de valores atípicos para el normal de los datos (por ejemplo, Grubbs de' prueba y Dixon la prueba de razón). Hay análisis multivariante de los datos atípicos y series de tiempo. El libro por Barnett y Lewis, "los valores Atípicos en los Datos Estadísticos" que es la biblia en valores atípicos cubre casi todo.

Cuando yo estaba en Oak Ridge, trabajando en la validación de los datos hemos tenido grandes conjuntos de datos multivariantes. Para univariado de los valores extremos hay una dirección para los extremos (muy por encima de la media y muy por debajo de la media). Pero para multivariante de los datos atípicos hay muchas direcciones para buscar oultiers. Nuestra filosofía es la de considerar que el uso previsto de los datos. Si usted está tratando de estimar ciertos parámetros tales como un bivariante de correlación o coeficiente de regresión, a continuación, desea mirar en la dirección que proporciona el mayor efecto sobre el parámetro de interés. En ese momento yo había leído Mallows documento inédito sobre la influencia de las funciones. El uso de la influencia de funciones para detectar valores atípicos está cubierto en Gnanadesikan del análisis multivariante libro. Por supuesto, usted lo puede encontrar en Barnett y Lewis también.

La influencia de la función de un parámetro que se define en los puntos en el espacio multivariante de las observaciones y, esencialmente, se mide la diferencia entre la estimación del parámetro cuando el punto de datos se incluye en comparación a cuando es la izquierda. Usted puede hacer estas estimaciones con cada punto de la muestra, pero generalmente se puede derivar una agradable forma funcional para la influencia de la función que da una idea y un procesamiento más veloz.

Por ejemplo en mi artículo en la Revista Americana de Matemáticas y Ciencias de la Gestión en 1982 "La Influencia de la Función y Su Aplicación para la Validación de Datos" me muestran lo que la fórmula analítica para la influencia de la función de correlación bivariada y es que los contornos de la constante influencia de hyperbolae. De modo que los contornos muestran la dirección en el plano donde la influencia de la función de los aumentos de la forma más rápida.

En mi trabajo me muestran cómo se aplica la influencia de la función de correlación bivariante con el FPC Formulario de datos 4 en la generación y consumo de energía. Hay una clara correlación positiva entre los dos y hemos encontrado algunos indicios de que fueron muy influyentes en la estimación de la correlación. Investigaciones posteriores mostraron que al menos uno de los puntos que había un error en ella y hemos sido capaces de corregirlo.

Pero un punto importante que siempre menciono cuando se habla de valores atípicos es que rechazo automático está mal. El outlier no es siempre un error, y a veces proporciona información importante acerca de los datos. Válido de datos no deben ser eliminados simplemente porque no se ajustan con nuestra teoría de la realidad. Si es difícil de hacer o no la razón por la que el outlier ocurrido siempre debe ser investigado.

Debo mencionar que esta no es la primera vez multivariante de los datos atípicos se han discutido en este sitio de búsqueda de abeto valores atípicos woll brobably llevar a varias preguntas donde multivariante de los datos atípicos se han discutido . Sé que tengo referencia de mi papel y estos libros antes, los enlaces a ellos.

También cuando outlier rechazo es hablar de muchos de nosotros en este sitio han recomendado en contra de ella, especialmente si se hace basándose únicamente en una prueba estadística. Peter Huber a menudo se menciona la estimación robusta como una alternativa a los valores atípicos de rechazo. La idea es que el fuerte de los procedimientos de restar importancia a los valores atípicos reducir su efecto en la estimación sin el torpe paso de rechazarlas y utilizar un estimador robusto.

La influencia de la función que realmente fue desarrollado originalmente por Frank Hampel en su tesis de Doctorado en la década de 1970 (1974 creo). Su idea era, de hecho, el uso de la influencia de funciones para identificar los estimadores que no eran robustos qgainst valores atípicos y para ayudar a desarrollar estimadores robustos.

Aquí hay un enlace a una discusión anterior sobre este tema en el que he mencionado algunos de los trabajos de la mina en la detección de datos atípicos en series de tiempo el uso de la influencia de las funciones. Una búsqueda en el sitio para los valores atípicos se revelan muchas preguntas y algunas que fueron cerrados debido a que eran duplicados. También debe haber al menos uno en el que mi papel en AJMMS se menciona.

2voto

JW. Puntos 386

Otro método simple para tratar con valores atípicos es el uso de las estadísticas no paramétricas. Probablemente con el tamaño de la muestra una rho de Spearman funcionaría así como un índice de correlación. (Nótese, sin embargo, que no paramétricas, de rango-orden de estadísticas no ayudan mucho con las relaciones no lineales.)

Si desea utilizar una r de Pearson (un paramétrica estadística), y si no son capaces de calcular la distancia de Cook, se podría utilizar un estándar de la regla general de que cualquier punto de datos que es de más de 2.67 desviaciones estándar (s).d.) a partir de la media, o 4.67 s.d. a partir de la media es un valor extremo o extremos, respectivamente. Estos son los valores de corte para los valores atípicos y extremos de puntos de datos que se utilizan en un estándar programa de análisis estadístico (SPSS).

Sólo porque un punto de datos es un valor atípico no es malo de datos para ser desechados. Usted puede calcular su correlación con y sin puntos extremos e ir de allí.

1voto

zolex Puntos 16

Usted podría querer intentar Cocinar a Distancia. Ver el artículo de la wikipedia para sugerencias de los puntos de corte. También, si usted está dirigiendo hacia un modelo de regresión, entonces usted puede desear para intentar regresión robusta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X