Error estándar de la mediana

Question

Error estándar de la mediana

Preguntado el 23 de Mayo, 2013: Cuando se hizo la pregunta
8227 visitas: Cuantas visitas ha tenido la pregunta
4 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Es correcta la siguiente fórmula si quiero medir el error estándar de la mediana en el caso de una muestra pequeña con distribución no normal (estoy usando pitón)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Preguntado el 23 de Mayo, 2013 por Ivan

Answer 1

4 Respuestas

Answer 2

25voto

StasK Puntos 19497

El número mágico 1.253 proviene del fórmula de varianza asintótica : ${\rm As. Var.}[\hat m] = \frac1{4f(m)^2 n}$ donde $m$ es la verdadera mediana, y $f(m)$ es la densidad real en ese punto.

Para cualquier distribución que no sea la normal (y Mary admite que esto es dudoso en sus datos), tendrías un factor diferente. Obtener la estimación de la mediana $\hat m$ no es un gran problema, aunque puede empezar a agonizar sobre los valores medios para el número par de observaciones frente a la inversión de la cdf o algo así. El valor de la densidad relevante se puede estimar mediante estimadores de densidad de núcleo Si es necesario. En general, esto, por supuesto, es relativamente dudoso, ya que se están tomando tres aproximaciones:

Que la fórmula asintótica de la varianza funciona para la muestra pequeña;
Que la mediana estimada se acerque lo suficiente a la mediana real;
Que el estimador de la densidad del núcleo da un valor exacto.

Cuanto menor sea el tamaño de la muestra, más dudoso será.

Respondido el 14 de Junio, 2013 por StasK (19497 Puntos )

10 votos

Quizás valga la pena añadir que el número mágico es $\sqrt{\dfrac{\pi}{2}} \approx 1.253314$

Comentado el 26 de Febrero, 2018 por Alan

Answer 3

20voto

Mr. Shiny and New 安宇 Puntos 613

Basándome en algunos de los comentarios de @mary creo que lo siguiente es apropiado. Parece que selecciona la mediana porque la muestra es pequeña.

Si seleccionas la mediana porque es una muestra pequeña, no es una buena justificación. Seleccionas la mediana porque la mediana es un valor importante. Dice algo diferente de la media. También se puede seleccionar para algunos cálculos estadísticos porque es robusta frente a ciertos problemas como los valores atípicos o la asimetría. Sin embargo, el tamaño pequeño de la muestra no es uno de esos problemas contra los que es robusta. Por ejemplo, cuando el tamaño de la muestra es menor, es mucho más sensible a la asimetría que la media.

Respondido el 23 de Mayo, 2013 por Mr. Shiny and New 安宇 (613 Puntos )

0 votos

¡Gracias John! En realidad, he optado por utilizar la mediana en lugar de la media por la razón que acabas de escribir. Tengo diferentes muestras, todas ellas con una distribución no gaussiana. Hay muestras que contienen más de 50 puntos, otras que contienen menos de 10 puntos, pero para todas ellas creo que tu comentario es válido, ¿no?

Comentado el 23 de Mayo, 2013 por Ivan

0 votos

Con tan pocos puntos no estoy seguro de lo que se puede decir sobre la distribución subyacente. Si se comparan muestras que contienen menos de 10 con muestras que contienen 50 y la distribución subyacente no es simétrica, la mediana mostrará un efecto aunque no lo haya, porque tendrá más sesgo en la muestra pequeña que en la grande. La media no lo hará.

Comentado el 23 de Mayo, 2013 por Mr. Shiny and New 安宇

0 votos

En el futuro, desarrolle mejor sus preguntas y pregunte más sobre lo que realmente necesita saber. Di por qué has hecho lo que has hecho hasta ahora y describe bien los datos que tienes. Obtendrás respuestas mucho mejores.

Comentado el 23 de Mayo, 2013 por Mr. Shiny and New 安宇

Mostrar 3 comentarios más

Answer 4

17voto

mehturt Puntos 13

Sokal y Rohlf dan esta fórmula en su libro Biometría (página 139). En "Comentarios sobre la aplicabilidad" escriben: Grandes muestras de poblaciones normales. Por lo tanto, me temo que la respuesta a su pregunta es no. Ver también aquí .

Una forma de obtener el error estándar y los intervalos de confianza para la mediana en muestras pequeñas con distribuciones no normales sería de la base de datos. Este puesto proporciona enlaces a paquetes de Python para el bootstrapping.

Advertencia

@whuber señaló que el bootstrap de la mediana en muestras pequeñas no es muy informativo ya que las justificaciones del bootstrap son asintóticas (ver comentarios más abajo).

Respondido el 23 de Mayo, 2013 por mehturt (13 Puntos )

0 votos

Gracias por su respuesta. Sé que el bootstrapping sería una alternativa, sólo estaba adivinando si hay una manera de medir el error de la mediana de una manera diferente. ¿La respuesta es no también para el error estándar de la MEDIA (misma muestra pequeña no gaussiana)?

Comentado el 23 de Mayo, 2013 por Ivan

0 votos

@mary Para el error estándar de la media, Sokal y Rohl escriben que es aplicable para "[...] cualquier población con varianza finita". Así que la respuesta para el error estándar de la media parece ser Sí, se puede calcular. Nota: Sin embargo, hay distribuciones (por ejemplo, la distribución de Cauchy) que no tienen una varianza o una media definidas y, en esos casos, no se puede calcular el SEM.

Comentado el 23 de Mayo, 2013 por mehturt

9 votos

(+1) Desgraciadamente, el bootstrap de la mediana de una muestra pequeña tampoco será muy informativo, y es innecesario, porque puede sustituirse por un simple cálculo. (Para cualquier número $t$ pregúntese, ¿cuál es la probabilidad de que más de la mitad de una muestra bootstrap supere $t$ ? Esa respuesta es fácil de obtener, y ahora no hace falta hacer ninguna simulación para estimarla).

Comentado el 23 de Mayo, 2013 por jldugger

Mostrar 4 comentarios más

Answer 5

0voto

gravestone Puntos 26

No es una solución, pero tal vez sea útil:

Supongamos que su distribución de datos es $p(x)$ y que $P(x) = \int_{-\infty}^x p$ sea la función de densidad acumulada. Así que la mediana de la distribución es el número m tal que P(m) = 1/2.

Tras esta útil página podemos calcular la distribución de un número $x$ siendo la mediana de $n$ muestras de esta distribución. Creo que es $q(x) = c_n p(x) (P(x)(1-P(x)))^{(n-1)/2}$ . Aquí $c_n$ es la constante adecuada para que sea una distribución de probabilidad, y creo que es n-1 elija (n-1)/2 si n es impar (no estoy seguro de ello).

Por último, te gustaría conocer la varianza de q(x), que puedes razonar con esta fórmula.

Respondido el 13 de Febrero, 2021 por gravestone (26 Puntos )

Error estándar de la mediana

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Error estándar de la mediana

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: