55 votos

Regresión lineal rápida resistente a los valores atípicos

Estoy tratando con datos lineales con valores atípicos, algunos de los cuales están a más de 5 desviaciones estándar de la línea de regresión estimada. Estoy buscando una técnica de regresión lineal que reduzca la influencia de estos puntos.

Hasta ahora lo que he hecho es estimar la línea de regresión con todos los datos, luego descartar el punto de datos con residuos cuadrados muy grandes (digamos el 10% superior) y repetir la regresión sin esos puntos.

En la literatura hay muchos enfoques posibles: mínimos cuadrados recortados, regresión cuantílica, m-estimadores, etc. La verdad es que no sé qué enfoque debería probar, así que estoy buscando sugerencias. Lo importante para mí es que el método elegido sea rápido porque la regresión robusta se calculará en cada paso de una rutina de optimización. Muchas gracias.

60voto

Patrick Puntos 183

Si sus datos contienen un único valor atípico, entonces se puede encontrar de forma fiable utilizando el enfoque que usted sugiere (aunque sin las iteraciones). Una aproximación formal a esto es

Cook, R. Dennis (1979). Observaciones influyentes en la regresión lineal . Revista de la Asociación Americana de Estadística (American Statistical Association) 74 (365): 169-174.

Para encontrar más de un valor atípico, durante muchos años, el método principal fue el llamado $M$ -familia de enfoques de estimación. Se trata de una familia de estimadores bastante amplia que incluye el $M$ estimador de la regresión, la regresión L1 de Koenker, así como el enfoque propuesto por Procastinator en su comentario a su pregunta. El $M$ estimadores con convexidad $\rho$ funciones tienen la ventaja de que tienen aproximadamente la misma complejidad numérica que una estimación de regresión regular. La gran desventaja es que sólo pueden encontrar de forma fiable los valores atípicos si:

  • el índice de contaminación de su muestra es menor que $\frac{1}{1+p}$ donde $p$ es el número de variables de diseño,
  • o si los valores atípicos no son periféricos en el espacio de diseño (Ellis y Morgenthaler (1992)).

Puede encontrar una buena aplicación de $M$ ( $l_1$ ) estimaciones de regresión en el robustbase ( quantreg ) R paquete.

Si sus datos contienen más de $\lfloor\frac{n}{p+1}\rfloor$ que potencialmente también se alejan en el espacio de diseño, entonces, encontrarlos equivale a resolver un problema combinatorio (equivalentemente la solución de un $M$ estimador con redecendente/no convexo $\rho$ función).

En los últimos 20 años (y especialmente en los últimos 10) se ha diseñado un gran conjunto de algoritmos de detección de valores atípicos rápidos y fiables para resolver aproximadamente este problema combinatorio. Actualmente están ampliamente implementados en los paquetes estadísticos más populares (R, Matlab, SAS, STATA,...).

No obstante, la complejidad numérica de encontrar valores atípicos con estos enfoques suele ser del orden de $O(2^p)$ . La mayoría de los algoritmos pueden utilizarse en la práctica para valores de $p$ a mediados de la década. Normalmente, estos algoritmos son lineales en $n$ (el número de observaciones) por lo que el número de observaciones no es un problema. Una gran ventaja es que la mayoría de estos algoritmos son vergonzosamente paralelos. Más recientemente, se han propuesto muchos enfoques diseñados específicamente para datos de mayor dimensión.

Dado que no ha especificado $p$ en su pregunta, enumeraré algunas referencias para el caso $p<20$ . En esta serie de artículos de revisión se explican algunos trabajos que lo explican con más detalle:

Rousseeuw, P. J. y van Zomeren B.C. (1990). Desenmascarar los valores atípicos multivariantes y los puntos de apoyo . Revista de la Asociación Americana de Estadística , vol. 85, nº 411, pp. 633-639.

Rousseeuw, P.J. y Van Driessen, K. (2006). Cálculo de la regresión LTS para grandes conjuntos de datos . Minería de datos y descubrimiento de conocimientos archivo Volumen 12 Número 1, Páginas 29 - 45.

Hubert, M., Rousseeuw, P.J. y Van Aelst, S. (2008). Métodos Multivariantes Robustos de Alto Desempeño . Ciencia estadística , Vol. 23, No. 1, 92-119

Ellis S. P. y Morgenthaler S. (1992). Apalancamiento y ruptura en la regresión L1. Revista de la Asociación Americana de Estadística , Vol. 87, No. 417, pp. 143-148

Un libro de referencia reciente sobre el problema de la identificación de valores atípicos es:

Maronna R. A., Martin R. D. y Yohai V. J. (2006). Estadísticas robustas: Theory and Methods . Wiley, Nueva York.

Estos métodos (y muchas otras variaciones de los mismos) se implementan (entre otros) en el robustbase R paquete.

21voto

AdamSane Puntos 1825

Para la regresión simple (una sola x), hay algo que decir de la línea de Theil-Sen en términos de robustez a los y-outliers y a los puntos influyentes, así como una buena eficiencia general (en la normal) en comparación con LS para la pendiente. El punto de ruptura de la pendiente es de casi el 30%; mientras el intercepto (hay una variedad de posibles interceptos que la gente ha utilizado) no tenga una ruptura más baja, todo el procedimiento hace frente a una fracción considerable de contaminación bastante bien.

Su velocidad podría sonar como si fuera mala - mediana de $\binom{n}{2}$ las pendientes parecen ser $O(n^2)$ incluso con un $O(n)$ mediana - pero mi recuerdo es que se puede hacer más rápidamente si la velocidad es realmente un problema ( $O(n \log n)$ (creo)

Edición: user603 preguntó por una ventaja de la regresión de Theil sobre la regresión de L1. La respuesta es la otra cosa que he mencionado - puntos de influencia:

Theil_vs_L1

La línea roja es la $L_1$ (a partir de la función rq en el quantreg paquete). El verde es un ajuste con una pendiente de Theil. Basta con una sola errata en el valor x -como escribir 533 en lugar de 53- para que ocurra este tipo de cosas. Así que el $L_1$ fit no es robusto a un solo error tipográfico en el espacio x.

12voto

Amadiere Puntos 5606

¿Has mirado RANSAC (Wikipedia) ?

Esto debería ser bueno para calcular un modelo lineal razonable incluso cuando hay un montón de los valores atípicos y el ruido, ya que se basa en el supuesto de que sólo una parte de los datos pertenecerá realmente al mecanismo.

1voto

DRF Puntos 114

Encontré el $l_1$ regresión de error penalizado mejor. También se puede utilizar de forma iterativa y reponderar las muestras, que no son muy consistentes con la solución. La idea básica es aumentar tu modelo con errores: $$y=Ax+e$$ donde $e$ es el vector de error desconocido. Ahora se realiza la regresión sobre $$\parallel y-Ax-e \parallel_2^2+ \lambda \parallel e \parallel_1$$ . Por supuesto, se puede utilizar el "lazo fusionado" para esto cuando se puede estimar la certeza de las mediciones por adelantado y poner esto como ponderación en $$W=diag(w_i)$$ y para resolver la nueva tarea ligeramente diferente $$\parallel y-Ax-e \parallel_2^2 + \lambda \parallel W e \parallel_1$$

Puede encontrar más información aquí: http://statweb.stanford.edu/~candes/papers/GrossErrorsSmallErrors.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X