6 votos

¿Una media recortada del X% significa?

Rand Wilcox en Fundamentals Of Statistical Methods, 1ª edición, da una fórmula que dice que para una media recortada al 20%, se recortaría el 20% de un extremo de los datos clasificados, y el 20% del otro extremo, lo que hace un 40% recortado en total.

Pero las hojas de cálculo como Calc de LibreOffice5, para una media recortada del 20%, sólo recortarían un 10% de un extremo y otro 10% del otro extremo, lo que haría un 20% recortado en total.

¿Cuál es la correcta?

El autor también escribe que una media recortada del 20% es lo mejor para las distribuciones de mezcla. ¿Es esto correcto?

0 votos

No puede haber una receta universal (¡utilizar el 20%!) para las distribuciones de mezclas, como tampoco la hay para cualquier otro tipo de datos. La elección de la fracción de recorte es un arte oscuro en el que la cantidad de contaminación o la fracción de observaciones silvestres que espera debe considerarse con la cantidad de protección que necesita. El recorte es un seguro contra los malos resultados debidos a valores salvajes, pero a veces los valores salvajes también son auténticos. En caso de duda, estudie la sensibilidad de los resultados a la fracción de recorte.

0 votos

Véase stats.stackexchange.com/questions/117950/ para un dispositivo.

9voto

Zizzencs Puntos 1358

Ninguno de los dos está "bien" o "mal"; lo que ocurre es que el uso no es universal. Sin embargo, he visto que la definición de Wilcox se utiliza más que la otra. Wikipedia está de acuerdo con él, al igual que varios otros sitios en los que he navegado, y también lo están SAS y R.

3 votos

(+1) Estoy de acuerdo. Añadiré que hay situaciones en las que recortar en una sola cola es totalmente razonable. En ese caso, la terminología estaría, o debería estar, de acuerdo.

1voto

Aaron Puntos 36

En Peter señala correctamente, las convenciones sobre el uso de este término difieren, y la definición utilizada por Wilcox parece ser (por desgracia) la más común. Discrepo de la opinión de que ninguna de las dos es correcta o incorrecta. La definición que elimina el X% de cada lado del vector de datos ordenados, sino que se refiere a esto como una "media recortada X%" es un definición de zombi --- parece imposible de matar a pesar de sus evidentes y graves defectos:

  • Según esta definición, en realidad está eliminando el doble de datos que la cantidad "titular" a la que se refiere en su descripción de la estadística. En concreto, ¡un "recorte del 50%" elimina todos los datos! Esto es contrario al significado básico del lenguaje y es muy engañoso para el lector, que esperaría que la eliminación de todos los datos se describiera como un "recorte del 100%". El uso de este término, sin una explicación explícita de su idiosincrasia, es muy engañoso.

  • Esta definición también es totalmente incoherente con el uso análogo de los niveles de significación para las pruebas de hipótesis y los intervalos de confianza en la discusión estadística. En esos contextos, si se tiene un nivel de significación $\alpha$ y se crea una prueba/intervalo de dos caras, el valor $\alpha$ se refiere al superficie total en ambos lados . Así, por ejemplo, una cola igual $1-\alpha$ El intervalo de confianza excluye un área de $\alpha/2$ de cada lado, y una prueba de hipótesis simétrica de dos caras en $\alpha$ construye la región de rechazo asignando una probabilidad nula de rechazo de $\alpha/2$ a cada lado. En ambos casos, la terminología respeta el hecho de que el nivel de significación se fija como un total.

  • La definición falla en ambos aspectos: es contraria al lenguaje ordinario e incoherente con las convenciones bien establecidas (y lingüísticamente apropiadas) para la descripción estadística en otras áreas fundamentales de la materia.

Si va a informar de las medias recortadas en su propio análisis para cualquier fin, por favor, no alimentar a los zombies . Por favor, utilice este término en su significado más apropiado, donde una media recortada del X% se refiere a la eliminación del X% de los datos. Si le preocupa la interpretación, deje una nota a pie de página explicando el uso que hace del término.

1 votos

Es un buen argumento, aunque la terminología zombi es exagerada. La expresión "en cada cola" puede bastar para aclararlo. A menudo, en estadística, la terminología original o incluso la existente parece mal elegida. A muchos nos gustaría empezar de nuevo con una terminología diferente (y unas convenciones de notación más coherentes), preferiblemente la nuestra. En este caso, creo que la definición que no te gusta, que he seguido en un artículo y en programas para hacer esto sin sentirme fuertemente de cualquier manera, está tan fuertemente arraigada que explicar la elección de una definición no estándar es esencial, no opcional .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X