El media recortada (o media truncada) es una versión robusta de la media, diseñada para ser resistente a los valores atípicos. Me pregunto cuál es la versión recortada correcta de una media ponderada.
Si tengo una muestra con puntos de datos $x_1,\dots,x_n$ y quiero recortar un punto de cada extremo (es decir, ser robusto ante un único valor atípico), la media recortada es $$\text{trimmed mean} = {1 \over n-2} \sum_{i=2}^{n-1} x_{(i)},$$ donde $x_{(i)}$ es el $i$ El mayor valor de la muestra (es decir, poner $x_1,\dots,x_n$ en orden creciente, y luego llamarlos $x_{(1)},\dots,x_{(n)}$ ). Esto es robusto a un solo valor atípico (un solo valor que se corrompe salvajemente), y también robusto a pequeños errores en cualquier valor individual (pequeños errores en un solo valor causan sólo pequeños cambios en la media recortada). Esto tiene sentido para mí.
Supongamos que en lugar de calcular una media, quiero calcular una media ponderada, pero quiero hacerlo de forma robusta. En otras palabras, tengo puntos de datos $x_1,\dots,x_n$ con pesos $w_1,\dots,w_n$ . La media ponderada es $$\text{weighted mean} = \sum_{i=1}^n w_i x_i.$$ Esto no es robusto a los valores atípicos; un solo valor que se corrompe por una gran cantidad puede causar un error ilimitado en la media ponderada. ¿Cuál es la versión robusta de la media recortada, para las medias ponderadas?
El esquema obvio sería hacer lo mismo que para la media recortada ordinaria, y descartar el más pequeño y el más grande $x$ -valor: $$\text{candidate} = {\sum_{i=2}^{n-1} w_{(i)} x_{(i)} \over \sum_{i=2}^{n-1} w_{(i)}},$$ donde $x_{(i)}$ es como se ha definido anteriormente y $w_{(i)}$ es el peso asociado a $x_{(i)}$ . Esto también es robusto a un único valor salvajemente corrompido. Sin embargo, me parece un poco dudoso. Por ejemplo, si tengo los valores $0,1,100,199,200$ en mi muestra, con pesos $1,1,1,1000,1$ Entonces esto me daría $(1 \times 1 + 1 \times 100 + 1000 \times 199)/1002$ y pequeños cambios o errores en el valor 199 tendrían una influencia bastante grande en la media final. Tal vez sea sólo una consecuencia de tener un peso grande, pero me hace preguntarme si tengo la noción correcta de media ponderada y recortada.
Me pregunto si no debería mirar tanto los valores como los pesos a la hora de decidir qué valor recortar. Por ejemplo, podría ordenar $w_1x_1,\dots,w_nx_n$ en orden creciente, dejando que el resultado sea $w_{[1]}x_{[1]},\dots,w_{[n]}x_{[n]}$ y, a continuación, utilizar $$\text{alternative} = {\sum_{i=2}^{n-1} w_{[i]}x_{[i]} \over \sum_{i=2}^{n-1} w_{[i]}}.$$ Esto también es robusto frente a un único valor atípico (un único valor que esté muy corrompido no puede causar un error ilimitado en la estimación final), pero parece que podría limitar mejor la influencia de los pequeños errores en cualquier punto de datos. Sin embargo, también me parece un poco dudoso por razones que no sé cómo articular.
¿Existe una generalización "correcta" de la media recortada a las medias ponderadas? ¿O cómo debería pensar en las opciones y sus compensaciones?
Tengo dificultades para articular los objetivos o los requisitos con claridad. Sospecho que hay al menos tres que uno podría esperar: punto de ruptura (un cambio o error en cualquier punto de datos no puede causar un cambio ilimitado en la estimación), sensibilidad local (un pequeño cambio o error en cualquier punto de datos tendrá una influencia limitada sobre la estimación, en la medida de lo posible), y la eficiencia (baja varianza en la estimación); pero no estoy seguro de si estoy pensando claramente en los objetivos.