Conozco dos enfoques similares relacionados con la estadística.
- Medias recortadas: cuando se calcula la media, se eliminan las observaciones más pequeñas y más grandes de los datos (por ejemplo, las más altas y las más bajas). 1 cada uno; ¡hay que hacerlo simétricamente!)
- Winsorización: similar a la media recortada, sólo se modifican las observaciones extremas. Sin embargo, en lugar de eliminarlas, las sustituye por la observación mayor/menor no extrema. Esto suele funcionar ligeramente mejor que el recorte.
Para ver ejemplos más detallados, consulte la Wikipedia:
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
Tenga en cuenta que esto funciona bien para algunas estadísticas, como cuando se calcula la media. La media recortada / winsorizada es a menudo una mejor estimación de la verdadera media que la media aritmética. En otros casos, puede arruinar sus estadísticas. Por ejemplo, al calcular la varianza, el recorte siempre subestimará la verdadera varianza. La winsorización, asumiendo que efectivamente algunas de las observaciones extremas son defectuosas, funcionará entonces un poco mejor (probablemente seguirá subestimando, pero no tanto).
No veo cómo sustituir los valores extremos por la media podría encajar aquí.
Sin embargo, hay otra práctica que está relacionada: imputación de valores perdidos . Asumiendo que su valor atípico es un dato defectuoso, sin valor, por lo que lo elimina. Al realizar la imputación, un valor sustitutivo típico sería la media o la moda:
https://en.wikipedia.org/wiki/Imputation_%28statistics%29