5 votos

Media ponderada recortada

El media recortada (o media truncada) es una versión robusta de la media, diseñada para ser resistente a los valores atípicos. Me pregunto cuál es la versión recortada correcta de una media ponderada.

Si tengo una muestra con puntos de datos $x_1,\dots,x_n$ y quiero recortar un punto de cada extremo (es decir, ser robusto ante un único valor atípico), la media recortada es $$\text{trimmed mean} = {1 \over n-2} \sum_{i=2}^{n-1} x_{(i)},$$ donde $x_{(i)}$ es el $i$ El mayor valor de la muestra (es decir, poner $x_1,\dots,x_n$ en orden creciente, y luego llamarlos $x_{(1)},\dots,x_{(n)}$ ). Esto es robusto a un solo valor atípico (un solo valor que se corrompe salvajemente), y también robusto a pequeños errores en cualquier valor individual (pequeños errores en un solo valor causan sólo pequeños cambios en la media recortada). Esto tiene sentido para mí.

Supongamos que en lugar de calcular una media, quiero calcular una media ponderada, pero quiero hacerlo de forma robusta. En otras palabras, tengo puntos de datos $x_1,\dots,x_n$ con pesos $w_1,\dots,w_n$ . La media ponderada es $$\text{weighted mean} = \sum_{i=1}^n w_i x_i.$$ Esto no es robusto a los valores atípicos; un solo valor que se corrompe por una gran cantidad puede causar un error ilimitado en la media ponderada. ¿Cuál es la versión robusta de la media recortada, para las medias ponderadas?

El esquema obvio sería hacer lo mismo que para la media recortada ordinaria, y descartar el más pequeño y el más grande $x$ -valor: $$\text{candidate} = {\sum_{i=2}^{n-1} w_{(i)} x_{(i)} \over \sum_{i=2}^{n-1} w_{(i)}},$$ donde $x_{(i)}$ es como se ha definido anteriormente y $w_{(i)}$ es el peso asociado a $x_{(i)}$ . Esto también es robusto a un único valor salvajemente corrompido. Sin embargo, me parece un poco dudoso. Por ejemplo, si tengo los valores $0,1,100,199,200$ en mi muestra, con pesos $1,1,1,1000,1$ Entonces esto me daría $(1 \times 1 + 1 \times 100 + 1000 \times 199)/1002$ y pequeños cambios o errores en el valor 199 tendrían una influencia bastante grande en la media final. Tal vez sea sólo una consecuencia de tener un peso grande, pero me hace preguntarme si tengo la noción correcta de media ponderada y recortada.

Me pregunto si no debería mirar tanto los valores como los pesos a la hora de decidir qué valor recortar. Por ejemplo, podría ordenar $w_1x_1,\dots,w_nx_n$ en orden creciente, dejando que el resultado sea $w_{[1]}x_{[1]},\dots,w_{[n]}x_{[n]}$ y, a continuación, utilizar $$\text{alternative} = {\sum_{i=2}^{n-1} w_{[i]}x_{[i]} \over \sum_{i=2}^{n-1} w_{[i]}}.$$ Esto también es robusto frente a un único valor atípico (un único valor que esté muy corrompido no puede causar un error ilimitado en la estimación final), pero parece que podría limitar mejor la influencia de los pequeños errores en cualquier punto de datos. Sin embargo, también me parece un poco dudoso por razones que no sé cómo articular.

¿Existe una generalización "correcta" de la media recortada a las medias ponderadas? ¿O cómo debería pensar en las opciones y sus compensaciones?


Tengo dificultades para articular los objetivos o los requisitos con claridad. Sospecho que hay al menos tres que uno podría esperar: punto de ruptura (un cambio o error en cualquier punto de datos no puede causar un cambio ilimitado en la estimación), sensibilidad local (un pequeño cambio o error en cualquier punto de datos tendrá una influencia limitada sobre la estimación, en la medida de lo posible), y la eficiencia (baja varianza en la estimación); pero no estoy seguro de si estoy pensando claramente en los objetivos.

6voto

lucia de finetti Puntos 30

Esto es más complicado de lo que crees.

Empecemos con las ponderaciones muestrales: los datos se muestrean de una población mayor y $w_i$ es el recíproco de la probabilidad de muestreo para la observación $i$ .

Ahora bien, podría ser que tuvieras un modelo de "contaminación por error bruto": las unidades se muestrean de la población y se miden, y a veces algo va mal en el proceso de medición. En ese caso, la contaminación por error se produce en el momento de la medición, después del muestreo, y su recorte no debería depender de las ponderaciones. Sólo tendrá que tener en cuenta los pesos descartados para reescalar. Si se clasifica por medidas $x$ entonces $$\bar X = \frac{\sum_{2}^{n-1} w_ix_i}{\sum_2^{n-1} w_i}$$

Por otro lado, es posible que sólo tenga un modelo que diga $x$ es de cola larga, por lo que se quiere reducir el impacto de los valores atípicos (correctamente medidos). En ese caso, el recorte debe producirse en la variable poblacional y debe depender de las ponderaciones. Todavía quiere ordenar por $x_i$ pero $$\bar X = \frac{\sum_{2}^{n-1} w^*_ix_i}{\sum_2^{n-1} w^*_i}$$ donde $w^*_i$ se definen para eliminar el primer 1/nº y el último 1/nº de los pesos. Si $w_1$ (después de hacer el pedido por $x$ ) es mayor que $1/n$ , $w^*_1=w_1-1/n$ Si no es así $w^*_1=0$ y $w^*_2$ también se reduce. Estás estimando la población $\alpha$ -media funcional recortada $\int_\alpha^{1-\alpha} x\, d\mathbb{F}(x)$ con $\alpha=1/n$ .

Con los pesos de frecuencia (como en el comentario de @gung), la idea del "error grueso" no tiene mucho sentido. Si tienes $w_i$ observaciones idénticas es poco probable que estén contaminadas por errores groseros. Es más probable que los errores den lugar a observaciones únicas. Incluso el modelo de cola larga $x$ es un poco extraño con las ponderaciones de frecuencia, ya que las colas largas tienden a dar observaciones únicas en las colas. Si tuviera ponderaciones de frecuencia, probablemente querría tratarlas como el segundo caso de las ponderaciones de muestreo, pero también querría examinar cuidadosamente lo que está sucediendo.

Los pesos de precisión tienen más sentido, pero ahí puede que no sea necesario recortar, puesto que ya está dando menos peso a las observaciones que merecen menos peso. Si desea recortar, probablemente querrá que la fracción de recorte dependa del peso, de modo que una observación de peso elevado deba ser más extrema para ser recortada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X