23 votos

¿Debe utilizarse la media cuando los datos están sesgados?

A menudo, los textos introductorios a la estadística aplicada distinguen la media de la mediana (a menudo en el contexto de la estadística descriptiva y motivando el resumen de la tendencia central mediante la media, la mediana y la moda) explicando que la media es sensible a los valores atípicos en los datos de la muestra y/o a las distribuciones sesgadas de la población, y esto se utiliza como justificación para afirmar que se debe preferir la mediana cuando los datos no son simétricos.

Por ejemplo:

La mejor medida de la tendencia central para un determinado conjunto de datos depende a menudo de la forma en que se distribuyen los valores.... Cuando los datos no son simétricos, la mediana suele ser la mejor medida de tendencia central. Dado que la media es sensible a las observaciones extremas, se ve arrastrada en la dirección de los valores de datos periféricos y, como resultado, puede acabar siendo excesivamente inf
-Pagano y Gauvreau, (2000) Principios de bioestadística 2a ed. (P&G estaba presente, por cierto, no se trata de un caso aislado). propiamente dicho .)

Los autores definen así la "tendencia central "La característica más investigada de un conjunto de datos es su centro, o el punto en torno al cual tienden a agruparse las observaciones".

Esto me parece una manera poco directa de decir utilizar sólo la mediana, punto Porque utilizar sólo la media cuando los datos/distribuciones son simétricos es lo mismo que decir sólo utilizar la media cuando es igual a la mediana. Edita: whuber señala acertadamente que estoy confundiendo las medidas robustas de tendencia central con la mediana. Así que es importante tener en cuenta que estoy discutiendo el encuadre específico de la media aritmética frente a la mediana en la estadística aplicada introductoria (donde, modo aparte, otras medidas de tendencia central no están motivados).

En lugar de juzgar la utilidad de la media por cuánto se aleja del comportamiento de la mediana, ¿no deberíamos entenderlas simplemente como dos medidas diferentes de centralidad? En otras palabras, ser sensible a la asimetría es una característica de la media. También se podría argumentar que "la mediana no es buena porque es insensible a la asimetría, así que utilícela sólo cuando sea igual a la media".

(El modo, muy sensatamente, no se involucra en esta cuestión).

21voto

AdamSane Puntos 1825

No estoy de acuerdo con el consejo como norma absoluta. (No es común a todos los libros).

Los problemas son más sutiles.

Si realmente te interesa hacer inferencias sobre la media de la población, la media muestral es al menos un estimador insesgado de la misma, y tiene otras ventajas. De hecho, véase la Teorema de Gauss-Markov - es mejor lineal imparcial.

En algunas situaciones, todos los estimadores lineales pueden ser malos, de modo que el mejor de ellos puede seguir siendo poco atractivo, por lo que un estimador de la media que no sea lineal puede ser mejor, pero requeriría saber algo (o incluso bastante) sobre la distribución. No siempre podemos permitirnos ese lujo.

Si no está necesariamente interesado en la inferencia relativa a una media poblacional (" ¿cuál es la edad típica? "o si hay un cambio de localización más general de una población a otra, lo que podría expresarse en términos de cualquier localización, o incluso de una prueba de una variable que es estocásticamente mayor que otra), entonces expresarlo en términos de la media de la población no es necesario o probablemente sea contraproducente (en el último caso).

Así que creo que todo se reduce a pensar:

  • ¿cuáles son sus preguntas reales? ¿Es bueno preguntar por la media de población en esta situación?

  • ¿cuál es la mejor manera de responder a la pregunta dada la situación (asimetría en este caso)? ¿Es la utilización de las medias muestrales el mejor enfoque para responder a nuestras preguntas de interés?

Es posible que tenga preguntas que no se refieran directamente a las medias poblacionales, pero que, sin embargo, las medias muestrales sean una buena forma de abordar esas preguntas (estimar la mediana poblacional de un tiempo de espera que se supone distribuido como una variable aleatoria exponencial, por ejemplo, es mejor estimarla como una fracción determinada de la media muestral)... o viceversa: la pregunta podría referirse a las medias poblacionales, pero las medias muestrales podrían no ser la mejor forma de responder a esa pregunta.

16voto

Zizzencs Puntos 1358

En la vida real, deberíamos elegir una medida de tendencia central en función de lo que intentamos averiguar; y sí, a veces la moda es lo que hay que utilizar. A veces es la media winsorizada o recortada. A veces es la media geométrica o armónica. A veces es no buena medida de la tendencia central.

Los libros de introducción están mal escritos, enseñan que hay reglas de cocina que aplicar.

Coja ingresos. Suele estar muy sesgada y a veces presenta valores atípicos; por supuesto, solemos ver "renta media". Pero a veces los valores atípicos y la asimetría son importantes. Depende del contexto y requiere reflexión.

Escribí más información

10voto

johv Puntos 191

Incluso cuando los datos están sesgados (por ejemplo, los costes sanitarios calculados junto con un ensayo clínico, en el que pocos pacientes totalizan un coste cero porque fallecen justo después de la inscripción, y pocos pacientes acumulan toneladas de costes debido a los efectos secundarios de un determinado programa sanitario investigado), puede preferirse la media a la mediana al menos por una razón práctica: multiplicar el coste medio por el número de pacientes proporciona a los responsables de la toma de decisiones sanitarias el impacto presupuestario de la tecnología sanitaria estudiada.

3voto

jsk Puntos 1631

Creo que lo que falta en la pregunta, así como en las dos respuestas hasta ahora, es que la discusión de la media frente a la mediana en los libros de introducción a la estadística se produce generalmente al principio de un capítulo sobre cómo resumir numéricamente una distribución. A diferencia de la estadística inferencial, generalmente se trata de producir estadísticas descriptivas que serían una forma útil de transmitir información sobre la distribución de los datos numéricamente en lugar de gráficamente. Los contextos en los que esto se plantea son la sección de estadística descriptiva de un informe o artículo de revista en los que generalmente no hay espacio para resúmenes gráficos de todas las variables de su conjunto de datos. Si la distribución es asimétrica, parece sensato elegir la mediana en lugar de la media. Si la distribución es simétrica sin valores atípicos, se suele preferir la media a la mediana, ya que será un estimador más eficaz.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X