21 votos

¿Barras de error sobre barras de error?

Inspirado por mi reciente asistencia a una conferencia de toxicología ambiental, tengo la siguiente pregunta sobre las barras de error:

Supongamos que extraigo muestras de una distribución desconocida, con media y varianza finitas. Quiero presentar la media muestral y añadir algunas barras de error. Como no sé mucho sobre la distribución subyacente, añado barras de error que muestren +/- la desviación típica de las muestras.

Mi pregunta es: ¿hay alguna forma de indicar con certeza esas barras de error? Añadir barras de error a las barras de error, por así decirlo.

Como ejemplo, he extraído 5 muestras de alguna distribución, y lo he repetido 5 veces. A continuación se muestran las medias muestrales y las barras de error de +/- las desviaciones típicas muestrales.

enter image description here

Podemos ver que, por casualidad, estas medias muestrales y barras de error parecen bastante diferentes, y no son realmente compatibles entre sí. Por supuesto, 5 muestras no es mucho, pero si mis muestras se obtienen mediante algún procedimiento experimental enrevesado (capturar un animal salvaje y tomar una muestra de sangre, por ejemplo), puede que no sea una opción fácil obtener más muestras.

Actualización:

Sólo para añadir algunas notas sobre cómo estaba pensando:

Yo mismo, que procedo de la física computacional, estoy acostumbrado a los métodos de Monte Carlo, y el $1/\sqrt{N}$ -que se deduce del teorema del límite central. Así que, al igual que el error en la media muestral tiene una distribución esperada, pensé que quizás tendría sentido preguntarse por el error esperado en la desviación típica muestral. Por supuesto, el problema es que la distribución del error en la media de la muestra se expresa en términos de la varianza (desconocida) de la distribución subyacente, y por lo tanto me quedo tomando la desviación estándar de la muestra, o algo por el estilo.

Pero aún así, pensé que debería haber alguna forma de indicar que la desviación típica de mi muestra es en sí misma bastante incierta, debido a la pequeña $N$ . Pero quizás la única manera sea simplemente hacer una lista $N$ y ser explícito sobre lo que muestran las barras de error.

19 votos

Encontrado en XKCD: xkcd.com/2110

1 votos

Puede consultar la distribución de la varianza muestral que relaciona la varianza de la muestra con el cuarto momento central de las muestras. He utilizado esta cantidad en el pasado para estimar barras de error en ruido cuántico (donde la varianza es la señal).

1voto

user164061 Puntos 281

TLDR;

A continuación se muestra una simulación en la que repetimos un experimento de estimación de la media de una distribución normal con $\mu = 0$ y $\sigma = 1$ . Hicimos 200 repeticiones con muestras de tamaño 10.

200 repetitions

Efectivamente, podemos ver que la estimación de la desviación típica es diferente en cada experimento. No estamos seguros del valor exacto de la desviación típica.

Pero hay algo que es más o menos constante: la probabilidad de que la media real esté dentro del intervalo representado por la barra de error.

En este ejemplo hicimos 61 veces (30,5%) una estimación errónea del intervalo (coloreado en rojo/azul cuando subestimamos o sobrestimamos la media). Para muestras grandes se convertirá en aproximadamente un 32% de error (véase https://en.m.wikipedia.org/wiki/68-95-99.7_rule )

Cuando interpretamos las barras de error más de esta manera, como un intervalo que contiene el parámetro cierta cantidad de tiempo, entonces el error en las barras de error es una especie de horneado en ella y está en esta expresión de error de contener el parámetro.

Estimación de intervalos

Las barras de error pueden considerarse una representación gráfica de la estimación de intervalos. Así que esta discusión sobre la incertidumbre en las estimaciones de incertidumbre en sí y puede ser visto como similar a una discusión más general sobre los intervalos.

La desviación estándar, el error estándar, son indicadores simples de intervalos

Cuando las barras de error representan la desviación típica estimada, entonces las propias barras de error también tienen cierta incertidumbre. Las desviaciones típicas no son más que una forma sencilla de expresar la incertidumbre.

Se pueden tener todo tipo de intervalos, como intervalos creíbles o intervalos de confianza, en cuyo caso la incertidumbre se aborda de un modo u otro.

Ejemplo alternativo: Intervalos de confianza

Por ejemplo, un intervalo de confianza contendrá el punto de datos correcto $\alpha\%$ del tiempo. Es una forma de representar la certeza y la precisión de los datos. Cuanto más precisos sean los datos, más pequeños serán los intervalos.

Pero tenga en cuenta que los intervalos de confianza representan la incertidumbre de una forma peculiar. Véase ¿Por qué un intervalo de confianza (IC) del 95% no implica una probabilidad del 95% de contener la media? El intervalo de confianza contiene el punto de datos verdadero con $\alpha\%$ cuando condicionamos los parámetros del modelo, y no cuando condicionamos la observación.

Para determinadas observaciones, los intervalos serán erróneos con más frecuencia que para otras observaciones y los intervalos pueden diferir en tamaño (como en su gráfico). Por tanto, sigue habiendo incertidumbre sobre los intervalos. Pero esta incertidumbre ya se expresa diciendo que es un intervalo con $\alpha\%$ probabilidad.

Las barras de error basadas en la desviación típica "simple" suelen estar muy próximas a un intervalo de confianza del 68% (véase https://en.m.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule ).

Cómo se resuelve el "problema".

  • En el caso del intervalo de confianza, el problema puede resolverse calculando un estadístico que sea un cantidad fundamental .

    Por ejemplo, un estadístico t es un cociente entre la media y la desviación típica observada. Dado que tanto el numerador como el denominador de este cociente dependen de la varianza de la distribución original, el cociente se vuelve independiente de esta varianza. De este modo, se ha "eliminado" la incertidumbre sobre la varianza de la distribución.

  • En el caso del intervalo creíble utilizamos a distribución anterior para expresar la incertidumbre sobre todo el sistema. En el cálculo final del intervalo basado en la distribución posterior, se incluye la incertidumbre sobre el intervalo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X