Estoy intentando averiguar qué ocurre si se aplica la técnica de detección de valores atípicos de Hampel, basada en la mediana y la MAD, a datos que están sesgados. Aparentemente, la ventaja del método de Hampel sobre las puntuaciones z es que está mucho menos influenciado por los propios valores atípicos. Sin embargo, varios artículos y sitios web dicen que este método no debe aplicarse cuando la distribución de los datos es sesgada, es decir, cuando los datos no están distribuidos normalmente. Sin embargo, no he encontrado ninguna literatura sobre lo que ocurre si se aplica este método a datos sesgados. ¿No detecta ningún valor atípico? ¿O detecta falsos positivos? Encontré varias preguntas en este foro acerca de si utilizar las puntuaciones z o el método de Hampel e incluso cuando los datos están sesgados, pero nadie dio una respuesta de cuál es el resultado del método de Hampel cuando se aplica a datos sesgados.
El comentario más cercano que he encontrado en este foro es el siguiente:
"Utilizar la MAD equivale a suponer que la distribución subyacente es simétrica (las desviaciones por encima y por debajo de la mediana se consideran por igual). Si sus datos son asimétricos, esto es claramente erróneo: le llevará a sobreestimar la verdadera variabilidad de sus datos." Media $\pm$ SD o Mediana $\pm$ ¿MAD para resumir una variable muy sesgada?
Dice que "le llevará a sobreestimar la verdadera variabilidad de sus datos", pero ¿qué significa eso realmente? ¿Conduce a la identificación de demasiados o menos valores atípicos?
Además, ¿alguien ve algún problema en aplicar esta técnica a los estudios con tamaños de muestra pequeños en comparación con las puntuaciones z?
¿Alguien puede ayudar a arrojar luz sobre esto?