3 votos

Cómo detectar los valores atípicos de la regresión cuando muchos residuos son cero

Me encuentro con una situación en la que cuando ajusto una línea de regresión robusta (mínimos cuadrados recortados) a un conjunto de datos, muchos de los residuos son de hecho cero.

Esto ocurre principalmente en la situación en la que la pendiente es cero y los valores de y son enteros. Cuando la línea se ajusta, pasa por la mayoría de los valores. Estoy contento con este ajuste, ya que una línea de mínimos cuadrados tradicional es incorrecta debido a algunos errores en los datos.

Sin embargo, ahora que he ajustado la línea, quiero analizar los residuos y detectar los valores atípicos (posiblemente de forma automática). Tenía la intención de calcular una "puntuación", tal vez basada en la técnica de Tukey de utilizar el cuartil superior y el inferior más 1,5 veces el rango intercuartil. Sin embargo, este enfoque no funcionará si muchos de los residuos son cero porque el IQR también es cero.

¿Qué debo hacer? ¿Basar la puntuación en algo como el número de desviaciones estándar de la media? Gracias.

2voto

Nick Cox Puntos 22819

Varios pensamientos:

  1. Dices que el problema es sobre todo cuando la pendiente es cero. Pero siempre que la regresión sea plana, el problema es el mismo que el de marcar los valores atípicos univariantes de la variable de respuesta.

  2. En términos más generales, un criterio sensato puede depender del tipo concreto de regresión robusta que se utilice, que ahora se ha denominado de mínimos cuadrados recortados. (Hay muchos sabores: pocos parecen mantener su popularidad durante más de unos años, excepto el más antiguo, L1 o, más generalmente, la regresión cuantílica).

  3. ¿Por qué no utilizar simplemente los valores de los residuos y trazarlos? La conversión a residuo/escala de residuos no siempre es necesaria, incluso cuando se utilizan diferentes variables de respuesta.

  4. Depende mucho del motivo y de lo que quiera o necesite automatizar. Si lo hace cientos, miles de veces, entonces se entiende. Si sólo lo haces unas pocas veces, puedes perder más tiempo preocupándote por la mejor manera de hacerlo que por mirar algunas parcelas. Lo complicado es la transición entre esas situaciones.

1voto

Tuve un problema similar en el que muchos de los residuos eran cero y el IQR no era utilizable porque era cero o cercano a cero. Una solución práctica que encontré que funcionaba razonablemente era utilizar el rango interdecil en lugar del IQR. A continuación, utilicé el decil superior y el decil inferior e hice que los límites exteriores fueran un múltiplo del IQR a partir de ellos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X