He hecho un montón de investigación sobre los valores atípicos, especialmente cuando trabajé en la energía de validación de datos en Oak Ridge, de 1978 a 1980. Hay pruebas formales para univariante de valores atípicos para el normal de los datos (por ejemplo, Grubbs de' prueba y Dixon la prueba de razón). Hay análisis multivariante de los datos atípicos y series de tiempo. El libro por Barnett y Lewis, "los valores Atípicos en los Datos Estadísticos" que es la biblia en valores atípicos cubre casi todo.
Cuando yo estaba en Oak Ridge, trabajando en la validación de los datos hemos tenido grandes conjuntos de datos multivariantes. Para univariado de los valores extremos hay una dirección para los extremos (muy por encima de la media y muy por debajo de la media). Pero para multivariante de los datos atípicos hay muchas direcciones para buscar oultiers. Nuestra filosofía es la de considerar que el uso previsto de los datos. Si usted está tratando de estimar ciertos parámetros tales como un bivariante de correlación o coeficiente de regresión, a continuación, desea mirar en la dirección que proporciona el mayor efecto sobre el parámetro de interés. En ese momento yo había leído Mallows documento inédito sobre la influencia de las funciones. El uso de la influencia de funciones para detectar valores atípicos está cubierto en Gnanadesikan del análisis multivariante libro. Por supuesto, usted lo puede encontrar en Barnett y Lewis también.
La influencia de la función de un parámetro que se define en los puntos en el espacio multivariante de las observaciones y, esencialmente, se mide la diferencia entre la estimación del parámetro cuando el punto de datos se incluye en comparación a cuando es la izquierda. Usted puede hacer estas estimaciones con cada punto de la muestra, pero generalmente se puede derivar una agradable forma funcional para la influencia de la función que da una idea y un procesamiento más veloz.
Por ejemplo en mi artículo en la Revista Americana de Matemáticas y Ciencias de la Gestión en 1982 "La Influencia de la Función y Su Aplicación para la Validación de Datos" me muestran lo que la fórmula analítica para la influencia de la función de correlación bivariada y es que los contornos de la constante influencia de hyperbolae. De modo que los contornos muestran la dirección en el plano donde la influencia de la función de los aumentos de la forma más rápida.
En mi trabajo me muestran cómo se aplica la influencia de la función de correlación bivariante con el FPC Formulario de datos 4 en la generación y consumo de energía. Hay una clara correlación positiva entre los dos y hemos encontrado algunos indicios de que fueron muy influyentes en la estimación de la correlación. Investigaciones posteriores mostraron que al menos uno de los puntos que había un error en ella y hemos sido capaces de corregirlo.
Pero un punto importante que siempre menciono cuando se habla de valores atípicos es que rechazo automático está mal. El outlier no es siempre un error, y a veces proporciona información importante acerca de los datos. Válido de datos no deben ser eliminados simplemente porque no se ajustan con nuestra teoría de la realidad. Si es difícil de hacer o no la razón por la que el outlier ocurrido siempre debe ser investigado.
Debo mencionar que esta no es la primera vez multivariante de los datos atípicos se han discutido en este sitio de búsqueda de abeto valores atípicos woll brobably llevar a varias preguntas donde multivariante de los datos atípicos se han discutido . Sé que tengo referencia de mi papel y estos libros antes, los enlaces a ellos.
También cuando outlier rechazo es hablar de muchos de nosotros en este sitio han recomendado en contra de ella, especialmente si se hace basándose únicamente en una prueba estadística. Peter Huber a menudo se menciona la estimación robusta como una alternativa a los valores atípicos de rechazo. La idea es que el fuerte de los procedimientos de restar importancia a los valores atípicos reducir su efecto en la estimación sin el torpe paso de rechazarlas y utilizar un estimador robusto.
La influencia de la función que realmente fue desarrollado originalmente por Frank Hampel en su tesis de Doctorado en la década de 1970 (1974 creo). Su idea era, de hecho, el uso de la influencia de funciones para identificar los estimadores que no eran robustos qgainst valores atípicos y para ayudar a desarrollar estimadores robustos.
Aquí hay un enlace a una discusión anterior sobre este tema en el que he mencionado algunos de los trabajos de la mina en la detección de datos atípicos en series de tiempo el uso de la influencia de las funciones. Una búsqueda en el sitio para los valores atípicos se revelan muchas preguntas y algunas que fueron cerrados debido a que eran duplicados. También debe haber al menos uno en el que mi papel en AJMMS se menciona.