Me encuentro con una situación en la que cuando ajusto una línea de regresión robusta (mínimos cuadrados recortados) a un conjunto de datos, muchos de los residuos son de hecho cero.
Esto ocurre principalmente en la situación en la que la pendiente es cero y los valores de y son enteros. Cuando la línea se ajusta, pasa por la mayoría de los valores. Estoy contento con este ajuste, ya que una línea de mínimos cuadrados tradicional es incorrecta debido a algunos errores en los datos.
Sin embargo, ahora que he ajustado la línea, quiero analizar los residuos y detectar los valores atípicos (posiblemente de forma automática). Tenía la intención de calcular una "puntuación", tal vez basada en la técnica de Tukey de utilizar el cuartil superior y el inferior más 1,5 veces el rango intercuartil. Sin embargo, este enfoque no funcionará si muchos de los residuos son cero porque el IQR también es cero.
¿Qué debo hacer? ¿Basar la puntuación en algo como el número de desviaciones estándar de la media? Gracias.