6 votos

Barras de error de confianza y "punto central": ¿Deberíamos enfatizar la mediana?

Digamos que quiero representar datos de resumen con un punto y un intervalo de confianza del 95% alrededor de ese punto. ¿Cuál debería ser realmente mi punto? ¿Media, moda o mediana?

Sé que la media es igual a la mediana para cualquier distribución simétrica, y las distribuciones más comunes utilizadas en el análisis de datos (distribución t y distribución normal) tienen la propiedad conveniente de que la media es igual a la moda es igual a la mediana, pero ¿qué pasa con la distribución log-normal:

$\frac{1}{{x\sqrt {2\pi {\sigma ^2}} }}\exp \left( { - \frac{{{{\left( {\ln x - \mu } \right)}^2}}}{{{\sigma ^2}}}} \right)$

transformado de nuevo a una escala lineal? Esta es una situación común en biología (al menos lo sería si los biólogos fueran mejores con sus estadísticas).

Aquí están mis argumentos para los tres momentos. No puedo decidir cuál es el argumento más sólido, así que estoy preguntando aquí:

  1. Mediana El límite inferior del intervalo de confianza del 95% es el valor que divide el 2.5% inferior de la distribución del 97.5% superior. De manera similar, el límite superior divide el 97.5% inferior del 2.5% superior. Por lo tanto, el punto que divide el 50% superior del 50% inferior, la mediana, debería ser el punto entre los límites del intervalo de confianza del 95%. En el caso de la distribución log-normal, esto es igual a $e^{\mu}$.

  2. Moda Si estoy estimando un valor real a través de regresión, quiero mostrar el valor que es el más probable de cualquier valor. Ese sería el pico de la distribución: la moda. En el caso de la distribución log-normal, esto es igual a $e^{\mu-\sigma^2}$, que es el más bajo de los tres momentos medidas de tendencia central.

  3. Media Siguiendo la misma lógica utilizada para la moda, pero ahora no solo estoy buscando la respuesta más correcta, sino la respuesta que minimizará lo equivocado que estaré si no la obtengo correctamente. En el caso de la distribución log-normal, esto es igual a $e^{\mu+\frac{1}{2}\sigma^2}$, que es el más alto de los tres momentos medidas de tendencia central.

    • ¿Cuál crees que es el caso más fuerte?
    • ¿Es la respuesta la misma si el valor que se está representando proviene de un modelo de regresión vs. resumir datos crudos (nota: sé que los resúmenes de datos crudos son solo regresiones de un parámetro, pero no muchos biólogos hacen esa distinción)?
    • en el centro de la cuestión: ¿qué estamos realmente tratando de mostrar con el punto en el centro de un límite de confianza?

EDICIÓN 01: La respuesta de @user603 tiene una buena discusión y una solicitud de más detalles. Aquí hay algo de contexto que me hizo hacer la pregunta en primer lugar:

Supongamos que estoy haciendo regresión en un experimento de inhibición de dosis con diferentes medicamentos añadidos a células cultivadas. Mi modelo para la regresión es:

$ M = F+\frac{C-F}{1+\exp{\left( H(\ln{dosis} - I_{\ln} \right) }}$

donde $M$ es la medición, $F$ es la asíntota inferior (suelo de señal), $C$ es la respuesta no inhibida (techo), y $I_{\ln}$ es el logaritmo natural de la concentración de inhibición a la mitad para un medicamento en particular. Hago mi regresión bajo la suposición de que $I_{\ln}$ es log-normal, por lo que obtengo un valor regresado (y límites de confianza) para $I_{\ln}$. Quiero informar mis hallazgos en un gráfico agradable que muestre la concentración de inhibidor a la mitad para los medicamentos en una escala lineal.

El objetivo de esta o cualquier informe científico de medida es dar nuestro mejor estimación de lo que es Verdadero en la Realidad, que podemos aproximar mediante experimentación y medidas repetidas. Entonces, supongo que mi pregunta se acaba de volver mucho más filosófica: ¿qué están realmente tratando de mostrar las estadísticas de resumen en la ciencia? ¿Nuestra mejor estimación para un valor (moda)? ¿La estimación en la que tenemos un 50% de probabilidad de superar/subestimar (mediana)? ¿La estimación por la que tenemos la desviación probable más baja de la Verdad (media)? A menudo veo que se enseña que los límites de confianza se basan en el error estándar (de la media), pero está comenzando a parecerme que realmente debería ser error estándar (de la mediana), que resulta ser (de la media) cuando estamos tratando con incertidumbre normal y t. Entonces, hasta ahora, tiendo a estar de acuerdo con @user603.

Pregunta de seguimiento: Si realmente quisiera mostrar media $\pm$ límites de confianza, o moda $\pm$ límites de confianza, ¿cómo se calcularían? ¿Se puede tener error estándar de la moda?

7voto

Patrick Puntos 183

Mediana!

Tenga en cuenta estas ventajas:

  1. la mediana y su IC (ver abajo) son invariantes a la transformación monótona de sus datos: $$\mathrm{med}(g(x))=g(\mathrm{med}(x))$$ para cualquier función $g$ monótona en el dominio de $x$ (es decir, $\log()$ si $x>0$).
  2. Es robusta en el sentido de que cambia mínimamente cuando reemplaza cualquier fracción $\varepsilon<1/2$ de sus observaciones por puntos arbitrarios (propiedad de sesgo mínimo y máximo de la mediana).
  3. la mediana es interpretable sin hacer referencia a una distribución subyacente de sus datos -y también lo son sus intervalos de confianza- ver más abajo.
  4. Los intervalos de confianza del 95% para la mediana son las observaciones más pequeñas con rango $j$ y $k$ donde: $$j=\lceil n/2-1.96\sqrt{n/4}\rceil$$ $$k=\lceil n/2+1.96\sqrt{n/4}\rceil$$ para distribuciones con colas gruesas y/o asimétricas, esto produce IC mucho más precisos que los gaussianos (y no mucho menos precisos cuando los datos subyacentes son de colas estrechas y provienen de una distribución simétrica). Estos IC siguen siendo significativos en muchos casos (distribuciones limitadas o discretas) donde no se puede decir lo mismo de los basados en la media/DE.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X