7 votos

Mediana + MAD para datos asimétricos

Estoy intentando averiguar qué ocurre si se aplica la técnica de detección de valores atípicos de Hampel, basada en la mediana y la MAD, a datos que están sesgados. Aparentemente, la ventaja del método de Hampel sobre las puntuaciones z es que está mucho menos influenciado por los propios valores atípicos. Sin embargo, varios artículos y sitios web dicen que este método no debe aplicarse cuando la distribución de los datos es sesgada, es decir, cuando los datos no están distribuidos normalmente. Sin embargo, no he encontrado ninguna literatura sobre lo que ocurre si se aplica este método a datos sesgados. ¿No detecta ningún valor atípico? ¿O detecta falsos positivos? Encontré varias preguntas en este foro acerca de si utilizar las puntuaciones z o el método de Hampel e incluso cuando los datos están sesgados, pero nadie dio una respuesta de cuál es el resultado del método de Hampel cuando se aplica a datos sesgados.

El comentario más cercano que he encontrado en este foro es el siguiente:

"Utilizar la MAD equivale a suponer que la distribución subyacente es simétrica (las desviaciones por encima y por debajo de la mediana se consideran por igual). Si sus datos son asimétricos, esto es claramente erróneo: le llevará a sobreestimar la verdadera variabilidad de sus datos." Media $\pm$ SD o Mediana $\pm$ ¿MAD para resumir una variable muy sesgada?

Dice que "le llevará a sobreestimar la verdadera variabilidad de sus datos", pero ¿qué significa eso realmente? ¿Conduce a la identificación de demasiados o menos valores atípicos?

Además, ¿alguien ve algún problema en aplicar esta técnica a los estudios con tamaños de muestra pequeños en comparación con las puntuaciones z?

¿Alguien puede ayudar a arrojar luz sobre esto?

3voto

Patrick Puntos 183

Si los datos no contaminados de su muestra se extraen de una distribución asimétrica y la medida de escala que utiliza para determinar la anchura de la región de rechazo supone que la parte buena de sus datos es simétrica, entonces, estas regiones de rechazo serán más grandes de lo necesario. Por ejemplo, si la distribución de los datos es realmente asimétrica. Esto le llevaría a

  • Rechazar las observaciones genuinas de la cola derecha como valores atípicos.
  • No detecta los valores atípicos de la cola izquierda por lo que son.

En general, el efecto combinado sería que su conjunto de datos (inapropiadamente) limpiado parecerá más simétrico de lo que realmente es.

La alternativa es utilizar una regla de detección de valores atípicos que trate las colas izquierda y derecha de la muestra por separado. Por supuesto, en comparación con la media y la mediana, esto también reducirá a la mitad el punto de ruptura de su procedimiento (esto es inevitable porque la tasa de contaminación de una media muestra puede ser potencialmente dos veces mayor que la tasa de contaminación de la muestra completa).

En mi opinión, el mejor procedimiento para este problema es utilizar las regiones de rechazo de los boxplots ajustados. Según mi experiencia (extraída de la simulación numérica), se puede esperar que detecten de forma fiable las contaminaciones asimétricas incluso cuando los datos contienen hasta un 10-15% de valores atípicos concentrados en una cola. Los boxplots ajustados están ampliamente implementados y su conexión con los boxplots clásicos hace que sean fáciles de entender y utilizar. Este respuesta explica e ilustra el uso de boxplots ajustados en un contexto tranquilo como el suyo.

1voto

Nick Cox Puntos 22819

Me parece que estas reglas de rechazo tienen más sentido si usted tiene motivos para creer que sus datos se extraen de alguna distribución mayoritaria MÁS una distribución contaminante de cola más pesada. Esa imagen de una situación contaminada debería basarse, idealmente, en el conocimiento del proceso generador real (físico, biológico, económico, lo que sea).

Por el contrario, si no tiene independiente motivos para creer que hay contaminantes, ¿cómo se puede esperar que la elección cualquier ¿la norma de rechazo es lo correcto?

Pero hay al menos una visión del mundo alternativa, que es que los valores atípicos pueden ser justo lo que se espera de una distribución de cola pesada (y en esta cuestión asimétrica), que puede parecerse o no a alguna distribución de libro de texto, digamos una lognormal.

Con una asimetría marcada, yo esperaría primero intentar una transformación y luego ver si los valores atípicos son aparentes en una escala más casi simétrica. Alternativamente, y cada vez con más frecuencia, la respuesta no es rechazar los valores atípicos, sino utilizar un modelo basado en una distribución de cola pesada.

Lo que quiero hacer aquí es subrayar un punto de vista, que es que las reglas de rechazo de valores atípicos pueden causar tantos problemas como los que resuelven, y que no tienen por qué formar parte del análisis rutinario de datos.

Me doy cuenta de que algunas personas tienen grandes conjuntos de datos de dudosa calidad que llegan en tiempo real y pueden juzgar que no tienen otra alternativa que filtrarlos con alguna regla de rechazo de valores atípicos, pero sospecho que no soy el único entre los estadísticos que desconfía profundamente de tales reglas.

Es elemental, pero vale la pena mencionar que muy a menudo los valores atípicos son genuinos e importantes, aunque me encuentro habitualmente con estudiantes decididos a omitirlos por considerarlos incómodos de analizar.

Es una situación en la que se pierde: se podría idear una regla de rechazo de valores atípicos si se conociera bien el proceso de generación preciso, pero no se conoce, y por tanto quién sabe cuáles son las propiedades reales de cualquier regla que se utilice.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X