¿Es correcta la siguiente fórmula si quiero medir el error estándar de la mediana en el caso de una muestra pequeña con distribución no normal (estoy usando pitón)?
sigma=np.std(data)
n=len(data)
sigma_median=1.253*sigma/np.sqrt(n)
¿Es correcta la siguiente fórmula si quiero medir el error estándar de la mediana en el caso de una muestra pequeña con distribución no normal (estoy usando pitón)?
sigma=np.std(data)
n=len(data)
sigma_median=1.253*sigma/np.sqrt(n)
El número mágico 1.253 proviene del fórmula de varianza asintótica : $$ {\rm As. Var.}[\hat m] = \frac1{4f(m)^2 n} $$ donde $m$ es la verdadera mediana, y $f(m)$ es la densidad real en ese punto.
Para cualquier distribución que no sea la normal (y Mary admite que esto es dudoso en sus datos), tendrías un factor diferente. Obtener la estimación de la mediana $\hat m$ no es un gran problema, aunque puede empezar a agonizar sobre los valores medios para el número par de observaciones frente a la inversión de la cdf o algo así. El valor de la densidad relevante se puede estimar mediante estimadores de densidad de núcleo Si es necesario. En general, esto, por supuesto, es relativamente dudoso, ya que se están tomando tres aproximaciones:
Cuanto menor sea el tamaño de la muestra, más dudoso será.
Basándome en algunos de los comentarios de @mary creo que lo siguiente es apropiado. Parece que selecciona la mediana porque la muestra es pequeña.
Si seleccionas la mediana porque es una muestra pequeña, no es una buena justificación. Seleccionas la mediana porque la mediana es un valor importante. Dice algo diferente de la media. También se puede seleccionar para algunos cálculos estadísticos porque es robusta frente a ciertos problemas como los valores atípicos o la asimetría. Sin embargo, el tamaño pequeño de la muestra no es uno de esos problemas contra los que es robusta. Por ejemplo, cuando el tamaño de la muestra es menor, es mucho más sensible a la asimetría que la media.
¡Gracias John! En realidad, he optado por utilizar la mediana en lugar de la media por la razón que acabas de escribir. Tengo diferentes muestras, todas ellas con una distribución no gaussiana. Hay muestras que contienen más de 50 puntos, otras que contienen menos de 10 puntos, pero para todas ellas creo que tu comentario es válido, ¿no?
Con tan pocos puntos no estoy seguro de lo que se puede decir sobre la distribución subyacente. Si se comparan muestras que contienen menos de 10 con muestras que contienen 50 y la distribución subyacente no es simétrica, la mediana mostrará un efecto aunque no lo haya, porque tendrá más sesgo en la muestra pequeña que en la grande. La media no lo hará.
En el futuro, desarrolle mejor sus preguntas y pregunte más sobre lo que realmente necesita saber. Di por qué has hecho lo que has hecho hasta ahora y describe bien los datos que tienes. Obtendrás respuestas mucho mejores.
Sokal y Rohlf dan esta fórmula en su libro Biometría (página 139). En "Comentarios sobre la aplicabilidad" escriben: Grandes muestras de poblaciones normales. Por lo tanto, me temo que la respuesta a su pregunta es no. Ver también aquí .
Una forma de obtener el error estándar y los intervalos de confianza para la mediana en muestras pequeñas con distribuciones no normales sería de la base de datos. Este puesto proporciona enlaces a paquetes de Python para el bootstrapping.
Advertencia
@whuber señaló que el bootstrap de la mediana en muestras pequeñas no es muy informativo ya que las justificaciones del bootstrap son asintóticas (ver comentarios más abajo).
Gracias por su respuesta. Sé que el bootstrapping sería una alternativa, sólo estaba adivinando si hay una manera de medir el error de la mediana de una manera diferente. ¿La respuesta es no también para el error estándar de la MEDIA (misma muestra pequeña no gaussiana)?
@mary Para el error estándar de la media, Sokal y Rohl escriben que es aplicable para "[...] cualquier población con varianza finita". Así que la respuesta para el error estándar de la media parece ser Sí, se puede calcular. Nota: Sin embargo, hay distribuciones (por ejemplo, la distribución de Cauchy) que no tienen una varianza o una media definidas y, en esos casos, no se puede calcular el SEM.
(+1) Desgraciadamente, el bootstrap de la mediana de una muestra pequeña tampoco será muy informativo, y es innecesario, porque puede sustituirse por un simple cálculo. (Para cualquier número $t$ pregúntese, ¿cuál es la probabilidad de que más de la mitad de una muestra bootstrap supere $t$ ? Esa respuesta es fácil de obtener, y ahora no hace falta hacer ninguna simulación para estimarla).
No es una solución, pero tal vez sea útil:
Supongamos que su distribución de datos es $p(x)$ y que $P(x) = \int_{-\infty}^x p$ sea la función de densidad acumulada. Así que la mediana de la distribución es el número m tal que P(m) = 1/2.
Tras esta útil página podemos calcular la distribución de un número $x$ siendo la mediana de $n$ muestras de esta distribución. Creo que es $q(x) = c_n p(x) (P(x)(1-P(x)))^{(n-1)/2}$ . Aquí $c_n$ es la constante adecuada para que sea una distribución de probabilidad, y creo que es n-1 elija (n-1)/2 si n es impar (no estoy seguro de ello).
Por último, te gustaría conocer la varianza de q(x), que puedes razonar con esta fórmula.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.