10 votos

Intervalo de confianza para la mediana

Tengo un conjunto de valores ${x_i}, i=1, \dots ,N$ de los cuales calculo la mediana M. Me preguntaba cómo podría calcular el error en esta estimación.

En la red descubrí que se puede calcular como $1.2533\frac{\sigma}{\sqrt{N}}$ donde $\sigma$ es la desviación estándar. Pero no encontré referencias al respecto. Así que no entiendo por qué... ¿Alguien me lo puede explicar?

Pensaba que podría utilizar el bootstrap para tener una estimación del error, pero me gustaría evitarlo porque ralentizaría mucho mi análisis.

También estaba pensando en calcular el error en la mediana de esta manera $$\delta M = \sqrt{ \frac{\sum_i(x_i - M)^2}{N-1} } $$

¿Tiene sentido?

1 votos

¿Sabes con certeza absoluta que los datos están distribuidos de forma normal?

0 votos

Son lognormales

4 votos

Bootstrap debería funcionar y no debería llevar mucho tiempo. O bien tienes un conjunto de datos lo suficientemente completo y no necesitas hacer un bootstrap, simplemente toma la mediana de tu variable como una buena estimación de la mediana real. O tienes un conjunto de datos bastante pequeño y podrías usar bootstrap para estimar una mediana con tu margen de error en un tiempo no excesivo.

13voto

mark Puntos 232

Como se señaló en la otra respuesta, hay un IC no paramétrico para la mediana utilizando las estadísticas de orden. Ese IC es mejor en muchos aspectos que lo que encontraste en la red.

Ahora, si necesitas saber de dónde proviene el factor $1.2533\frac{\sigma}{\sqrt{N}}$, la respuesta proviene de la distribución asintótica de la mediana. Si denotamos la mediana de la muestra como $\tilde{\theta}$ y la mediana de la población como $\theta$, entonces se puede mostrar que

$$\sqrt{n} \left( \tilde{\theta} - \theta \right) \xrightarrow{L} \mathcal{N} \left(0, \frac{1}{4 \left[f \left( \theta \right) \right]^2} \right)$$

donde $f$ es la distribución de tu muestra. El resultado no es tan universal como el TCL porque la distribución asintótica aún depende de la distribución subyacente de la muestra (a través del término $\left[f \left( \theta \right) \right]^2$). Sin embargo, puedes hacer la simplificación drástica de que tu muestra proviene de una distribución normal con media -y mediana- $\theta$ y varianza $\sigma^2$. Evaluando $f$ en su punto de simetría entonces da como resultado

$$\left[f \left( \theta \right) \right]^2 = \frac{1}{2\pi \sigma^2}$$

y así la varianza asintótica se convierte en

$$\frac{2\pi}{4} \sigma^2$$.

Divide por $N$ y toma la raíz cuadrada de eso para llegar a tu error estándar $1.2533\frac{\sigma}{\sqrt{N}}$.

0 votos

13voto

dan90266 Puntos 609

Para tratar directamente el error en la mediana, puede utilizar el intervalo de confianza no paramétrico exacto para la mediana, que utiliza estadísticas de orden. Si desea algo diferente, es decir, una medida de dispersión, considere la diferencia media de Gini. El código está aquí para el intervalo de confianza de la mediana.

0 votos

En realidad estaba considerando usar un análogo del coeficiente de Gini: $S_n=c * med_j (med_j |x_i-x_j|)$ tal como lo definen Rousseeuw y Croux (web.ipac.caltech.edu/staff/fmasci/home/astro_refs/…).

1 votos

La mediana debe tener un error asimétrico si la distribución de datos es asimétrica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X