Digamos que quiero representar datos de resumen con un punto y un intervalo de confianza del 95% alrededor de ese punto. ¿Cuál debería ser realmente mi punto? ¿Media, moda o mediana?
Sé que la media es igual a la mediana para cualquier distribución simétrica, y las distribuciones más comunes utilizadas en el análisis de datos (distribución t y distribución normal) tienen la propiedad conveniente de que la media es igual a la moda es igual a la mediana, pero ¿qué pasa con la distribución log-normal:
$\frac{1}{{x\sqrt {2\pi {\sigma ^2}} }}\exp \left( { - \frac{{{{\left( {\ln x - \mu } \right)}^2}}}{{{\sigma ^2}}}} \right)$
transformado de nuevo a una escala lineal? Esta es una situación común en biología (al menos lo sería si los biólogos fueran mejores con sus estadísticas).
Aquí están mis argumentos para los tres momentos. No puedo decidir cuál es el argumento más sólido, así que estoy preguntando aquí:
-
Mediana El límite inferior del intervalo de confianza del 95% es el valor que divide el 2.5% inferior de la distribución del 97.5% superior. De manera similar, el límite superior divide el 97.5% inferior del 2.5% superior. Por lo tanto, el punto que divide el 50% superior del 50% inferior, la mediana, debería ser el punto entre los límites del intervalo de confianza del 95%. En el caso de la distribución log-normal, esto es igual a $e^{\mu}$.
-
Moda Si estoy estimando un valor real a través de regresión, quiero mostrar el valor que es el más probable de cualquier valor. Ese sería el pico de la distribución: la moda. En el caso de la distribución log-normal, esto es igual a $e^{\mu-\sigma^2}$, que es el más bajo de los tres
momentosmedidas de tendencia central. -
Media Siguiendo la misma lógica utilizada para la moda, pero ahora no solo estoy buscando la respuesta más correcta, sino la respuesta que minimizará lo equivocado que estaré si no la obtengo correctamente. En el caso de la distribución log-normal, esto es igual a $e^{\mu+\frac{1}{2}\sigma^2}$, que es el más alto de los tres
momentosmedidas de tendencia central.- ¿Cuál crees que es el caso más fuerte?
- ¿Es la respuesta la misma si el valor que se está representando proviene de un modelo de regresión vs. resumir datos crudos (nota: sé que los resúmenes de datos crudos son solo regresiones de un parámetro, pero no muchos biólogos hacen esa distinción)?
- en el centro de la cuestión: ¿qué estamos realmente tratando de mostrar con el punto en el centro de un límite de confianza?
EDICIÓN 01: La respuesta de @user603 tiene una buena discusión y una solicitud de más detalles. Aquí hay algo de contexto que me hizo hacer la pregunta en primer lugar:
Supongamos que estoy haciendo regresión en un experimento de inhibición de dosis con diferentes medicamentos añadidos a células cultivadas. Mi modelo para la regresión es:
$ M = F+\frac{C-F}{1+\exp{\left( H(\ln{dosis} - I_{\ln} \right) }}$
donde $M$ es la medición, $F$ es la asíntota inferior (suelo de señal), $C$ es la respuesta no inhibida (techo), y $I_{\ln}$ es el logaritmo natural de la concentración de inhibición a la mitad para un medicamento en particular. Hago mi regresión bajo la suposición de que $I_{\ln}$ es log-normal, por lo que obtengo un valor regresado (y límites de confianza) para $I_{\ln}$. Quiero informar mis hallazgos en un gráfico agradable que muestre la concentración de inhibidor a la mitad para los medicamentos en una escala lineal.
El objetivo de esta o cualquier informe científico de medida es dar nuestro mejor estimación de lo que es Verdadero en la Realidad, que podemos aproximar mediante experimentación y medidas repetidas. Entonces, supongo que mi pregunta se acaba de volver mucho más filosófica: ¿qué están realmente tratando de mostrar las estadísticas de resumen en la ciencia? ¿Nuestra mejor estimación para un valor (moda)? ¿La estimación en la que tenemos un 50% de probabilidad de superar/subestimar (mediana)? ¿La estimación por la que tenemos la desviación probable más baja de la Verdad (media)? A menudo veo que se enseña que los límites de confianza se basan en el error estándar (de la media), pero está comenzando a parecerme que realmente debería ser error estándar (de la mediana), que resulta ser (de la media) cuando estamos tratando con incertidumbre normal y t. Entonces, hasta ahora, tiendo a estar de acuerdo con @user603.
Pregunta de seguimiento: Si realmente quisiera mostrar media $\pm$ límites de confianza, o moda $\pm$ límites de confianza, ¿cómo se calcularían? ¿Se puede tener error estándar de la moda?