10 votos

¿Cómo calcular la media truncada o recortada?

¿Cómo puedo calcular la media truncada o recortada? ¿Digamos truncar un 10%?

Puedo imaginar cómo hacerlo si tienes unos 10 datos, pero ¿cómo puedo hacerlo para muchos datos?

1 votos

¿Debería etiquetarse como recortado en lugar de truncado?

0 votos

Yo diría que cualquiera de en.wikipedia.org/wiki/Truncated_mean funcionará.

21voto

Vitalik Puntos 184

La media recortada implica recortar el $P$ por ciento de las observaciones de ambos extremos.

Por ejemplo: Si se te pide calcular una media recortada del 10%, $P = 10$.

Dado un conjunto de observaciones, $X_i$:

  1. Primero encuentra $n$ = número de observaciones.
  2. Reordénalos como "estadísticas de orden" $X_i$ de menor a mayor.
  3. Encuentra minúscula $p = P/100$ = proporción recortada.
  4. Calcula $n p$.

Si $n p$ es un número entero, usa $k = n p$ y recorta $k$ observaciones en ambos extremos.

$R$ = observaciones restantes = $n - 2k$.

Media recortada = $(1/R) \left( X_{k+1} + X_{k+2} + \ldots + X_{n-k} \right).$

Ejemplo: Encuentra la media recortada del 10% de

2, 4, 6, 7, 11, 21, 81, 90, 105, 121

Aquí, $n = 10, p = 0.10, k = n p = 1$ que es un número entero así que recorta exactamente una observación en cada extremo, dado que $k = 1$. Así que recorta el 2 y 121. Nos quedan $R = n - 2k = 10 - 2 = 8$ observaciones.

La media recortada del 10%= (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40.625

Si $ n p$ tiene una parte fraccional, la media recortada es un poco más complicada. En el ejemplo anterior, si quisiéramos una media recortada del 15%, $P = 15, p = 0.15, n = 10, k = n p = 1.5$. Esto tiene parte entera 1 y parte fraccional 0.5 presente. $R = n - 2k = 10 - 2 * 1.5 = 10 - 3 = 7$. Así que se retienen $R = 7$ observaciones.

Adición al comentario de @whuber: Para mantener la falta de sesgo (después de remover el 2 y 121), parece que debemos remover la mitad del 4 y la mitad del 105 para una media recortada de $(4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2)/7 = 38.64$

Fuente: Apuntes de clase sobre la media recortada de P por ciento

0 votos

@Mehper En el último ejemplo, ¿cuáles tres observaciones eliminarías? Obviamente el 2 y el 121, pero ¿qué más? Para mantener la imparcialidad, parece que debes eliminar la mitad del 4 y la mitad del 105 para obtener una media recortada de (4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2)/7 = 34.64

0 votos

@mehper: solo para tu información, puedes formatear las matemáticas escribiendo la expresión TeX entre signos $. Por ejemplo, $X_i$

0 votos

@whuber: Gracias por tu comentario, he agregado tu comentario a la respuesta; @nico: Gracias por hacerme saber sobre el formato TeX. Intenté actualizar la respuesta usando el formato TeX pero no pude lograrlo bien. ¿Podrías por favor darme un enlace que explique cómo usar el estilo TeX en publicaciones? No tengo experiencia en TeX.

5voto

Además de la respuesta anterior, si hay muchas entradas (digamos n), entonces ordenarlas lleva tiempo O(n log n). Sin embargo, hay una solución de tiempo lineal.

  1. Calcula el percentil P L y el percentil (1-P) U. Existe un algoritmo simple (similar a quicksort) para esto que se ejecuta en tiempo lineal esperado. También hay un algoritmo más complicado que se ejecuta en tiempo lineal en el peor de los casos. Ambos se pueden encontrar, por ejemplo, en: Cormen, Leiserson, Rivest, Stein: Introducción a los Algoritmos.

  2. Recorre todos los valores y agrega aquellos entre L y U. Obviamente, esto lleva tiempo lineal.

  3. Si existen empates y los percentiles calculados existen varias veces entre los valores, es posible que hayamos agregado demasiados o muy pocos valores y necesitemos corregir esto de manera apropiada. Dado que sabemos cuántos números agregamos en el paso 2, y también cuántas veces hemos visto L y U, esto se puede hacer en tiempo constante.

  4. Divide la suma total por el número de sumandos.

Tenga en cuenta que la receta anterior solo vale la pena si n es realmente grande y ordenar todos ellos sería un problema de rendimiento, quizás unos pocos millones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X