21 votos

¿Barras de error sobre barras de error?

Inspirado por mi reciente asistencia a una conferencia de toxicología ambiental, tengo la siguiente pregunta sobre las barras de error:

Supongamos que extraigo muestras de una distribución desconocida, con media y varianza finitas. Quiero presentar la media muestral y añadir algunas barras de error. Como no sé mucho sobre la distribución subyacente, añado barras de error que muestren +/- la desviación típica de las muestras.

Mi pregunta es: ¿hay alguna forma de indicar con certeza esas barras de error? Añadir barras de error a las barras de error, por así decirlo.

Como ejemplo, he extraído 5 muestras de alguna distribución, y lo he repetido 5 veces. A continuación se muestran las medias muestrales y las barras de error de +/- las desviaciones típicas muestrales.

enter image description here

Podemos ver que, por casualidad, estas medias muestrales y barras de error parecen bastante diferentes, y no son realmente compatibles entre sí. Por supuesto, 5 muestras no es mucho, pero si mis muestras se obtienen mediante algún procedimiento experimental enrevesado (capturar un animal salvaje y tomar una muestra de sangre, por ejemplo), puede que no sea una opción fácil obtener más muestras.

Actualización:

Sólo para añadir algunas notas sobre cómo estaba pensando:

Yo mismo, que procedo de la física computacional, estoy acostumbrado a los métodos de Monte Carlo, y el $1/\sqrt{N}$ -que se deduce del teorema del límite central. Así que, al igual que el error en la media muestral tiene una distribución esperada, pensé que quizás tendría sentido preguntarse por el error esperado en la desviación típica muestral. Por supuesto, el problema es que la distribución del error en la media de la muestra se expresa en términos de la varianza (desconocida) de la distribución subyacente, y por lo tanto me quedo tomando la desviación estándar de la muestra, o algo por el estilo.

Pero aún así, pensé que debería haber alguna forma de indicar que la desviación típica de mi muestra es en sí misma bastante incierta, debido a la pequeña $N$ . Pero quizás la única manera sea simplemente hacer una lista $N$ y ser explícito sobre lo que muestran las barras de error.

19 votos

Encontrado en XKCD: xkcd.com/2110

1 votos

Puede consultar la distribución de la varianza muestral que relaciona la varianza de la muestra con el cuarto momento central de las muestras. He utilizado esta cantidad en el pasado para estimar barras de error en ruido cuántico (donde la varianza es la señal).

20voto

Aaron Puntos 36

Los objetos que utilizamos para hacer inferencias (por ejemplo, estimaciones, intervalos de confianza, barras de error, estadísticos de prueba, valores p, etc.) son los siguientes estadísticas lo que significa que son funciones de los datos observados. Puesto que ya son funciones de los datos observados, estos objetos no tienen ninguna incertidumbre en ellos --- representan inferencias sobre valores inciertos, pero no hay incertidumbre en las estadísticas mismas. No formamos barras de error sobre barras de error porque no hay incertidumbre en las barras de error para empezar, porque se forman como una función de los datos observados.

Como punto menor, generalmente es una práctica subóptima utilizar barras de error para mostrar una desviación de más/menos una desviación estándar (estimada). Normalmente es mejor utilizar estos valores y otras estadísticas para formar un intervalo de confianza apropiado para el valor incierto de interés, y utilizar las barras de error para mostrar el intervalo de confianza. En cualquier caso, debe etiquetar su gráfico adecuadamente para que el lector entienda lo que representan las barras de error.

1 votos

Realmente no veo nada en la respuesta que implique que haya algo malo en formar un IC para una desviación estándar poblacional. Cualquiera que sea el CI que el PO desee formar, ya debería tener en cuenta la variación muestral en todas las cantidades relevantes.

7voto

Jay Querido Puntos 589

La respuesta corta es "no".

Independientemente de cómo construyas tus barras de error, son una regla. No puede dudar de ellas. Imaginemos que son intervalos de confianza. Existen múltiples formas estándar de crear intervalos de confianza. Son reglas diferentes con propiedades ligeramente distintas. Sin embargo, son una regla elegida.

También existen otras formas de construir barras de error, como añadir más o menos una desviación típica. Sigue siendo una regla.

Sabes exactamente la respuesta. No tienen dudas.

Lo que reflejan son los elementos aleatorios de las muestras observadas. Si son un $1-\alpha$ por ciento de confianza, existe la garantía de que los intervalos de confianza cubren el parámetro al menos $1-\alpha$ por ciento de las veces. No hay garantía de que lo cubra para esta muestra. Incluso con un conjunto de cinco muestras, puede que ninguna de ellas cubra el parámetro, la garantía es sobre la repetición infinita.

Todas las formas de construir una barra de error están basadas en algún principio de optimalidad. Así, las barras de error satisfacen alguna condición de optimalidad que es buena en promedio.

Todos ellos son una declaración del mejor estimador del rango en el que se sitúa un parámetro, dado un modelo y una función de pérdida.

Sus barras de error son una declaración de incertidumbre.

7voto

Michael MacAskill Puntos 381

El diseño tradicional de las barras de error da una desafortunada impresión de cierta distribución lineal de la incertidumbre, y pone mucho énfasis visual en el final de la barra, que es donde la distribución de la ubicación de su estimación es menos probable. Clause Wilke (en su libro Fundamentos de la visualización de datos en el capítulo Visualizar la incertidumbre ) muestra algunas alternativas gráficas a las barras de error tradicionales que transmiten algo de la distribución de la incertidumbre en una estimación: Error bar alternatives

Imagen de Claus Wilke, utilizada bajo licencia Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional. Original disponible en https://clauswilke.com/dataviz/visualizing-uncertainty.html

Las "barras de error graduadas" de (a) y (b) se forman trazando simultáneamente los IC del 90%, 95% y 99%. Thom Baguley analiza un enfoque similar que denomina "barras de error escalonadas" y proporciona un código R de ejemplo aquí: https://seriousstats.wordpress.com/2012/06/21/confidence-intervals-with-tiers/ aunque la primera vez que vi este enfoque fue en el libro de texto de Andrew Gelman Análisis de datos mediante modelos de regresión y multinivel/jerárquicos.

6voto

Matt Puntos 588

Le interesa errores estándar que describen la variabilidad en la estimación de un parámetro y están relacionados con su enfoque de muestreo. Esto es distinto de los propios parámetros (por ejemplo, la media y la desviación típica), que sólo son funciones de la población subyacente y no dependen del tamaño de la muestra.

Su gráfico actual muestra dos valores por grupo, la media muestral y la desviación típica muestral, sobre los que no hay incertidumbre (es lo que usted observe que es). Suponiendo un muestreo aleatorio adecuado, puede utilizar estos valores para hacer inferencias sobre las cantidades no observables de la media de la población y la desviación típica de la población para cada grupo. Puede utilizar herramientas comunes como el error estándar o los intervalos de confianza del 95% para estimar la precisión de las estimaciones de los parámetros.

Sería impar intentar representar esto como barras de error sobre barras de error, pero sería perfectamente razonable enumerar la media y la desviación estándar para cada grupo, junto con el IC del 95% de cada estimación de parámetro. Esto puede ayudarle a decidir si las medias/desviaciones estándar observadas en los grupos C y D, por ejemplo, representan verdaderas diferencias en los parámetros subyacentes de la población, o si las diferencias aparentes representan la variación normal que cabría esperar con una muestra de tamaño reducido.

0 votos

@Tor Puede calcular las medias y las desviaciones típicas de los datos observados y, junto con el tamaño de la muestra, puede calcular el error típico de la media muestral y el error típico de la desviación típica muestral. A partir de ahí, calcula el error estándar/intervalo de confianza de la diferencia de medias/desviaciones estándar: si el IC del 95% de la diferencia no contiene 0, puede estar razonablemente seguro de que los grupos no se extrajeron de distribuciones con medias/desviaciones estándar idénticas.

0 votos

Ok, puedo estimar el error estándar de la media muestral, $\sigma/\sqrt{N}$ utilizando la desviación típica de la muestra como estimación de la desviación típica real. Pero, ¿cómo calcular el error típico de la desviación típica muestral?

1 votos

@Tor Buena pregunta, esto no se hace demasiado comúnmente, pero parece que hay una respuesta aquí: stats.stackexchange.com/questions/156518/

4voto

S.Bandopadhaya Puntos 213

Revisión de los intervalos de confianza

Sea $\theta \in \mathbb{R}$ sea un parámetro de interés que estudiamos a partir de una variable aleatoria $X$ . Una exacta $1-\alpha$ intervalo de confianza $(L(X),U(X)$ se define por la propiedad de que \begin{equation*} \mathbb{P}\left[ L(X) < \theta < U(X) \right] = 1-\alpha, \end{equation*} donde $L$ es el punto final inferior y $R$ es el punto final superior del intervalo de confianza.

El gráfico de la pregunta muestra que $L$ y $U$ son variables aleatorias. Ciertamente es así, ya que dependen de la variable aleatoria $X$ . Sin embargo, una fracción de los intervalos de confianza $(L(X),U(X))$ contienen $\theta$ . Por construcción, la fracción es exactamente $1-\alpha$ . En $\alpha=0.05$ Esto es $95\%$ de los intervalos de confianza.

Barras de error sobre barras de error

Este procedimiento tiene mucho sentido si el objetivo de la inferencia es $\theta$ - que es lo que hemos dicho antes. Sin embargo, también pueden interesarle los puntos finales $L(X)$ y $U(X)$ ellos mismos. A continuación, puede construir un "intervalos de confianza" $(L^L(X), U^L(X))$ y $(L^U(X), U^U(X))$ tal que \begin{equation*} \mathbb{P} \left[L^L(X) < L(X) < U^L(X) \right] = 1-\alpha \end{equation*} y \begin{equation*} \mathbb{P} \left[L^U(X) < U(X) < U^U(X) \right] = 1-\alpha. \end{equation*} Por ejemplo, el "intervalo de confianza" $(L^L(X), U^L(X))$ contiene la variable aleatoria $L(X)$ una fracción $1-\alpha$ del tiempo.

Basándonos en todos estos intervalos de confianza, podríamos ampliar el intervalo de confianza original a $(L^L(X), U^U(X))$ . Sin embargo, no estoy seguro de la utilidad de esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X