7 votos

Álgebra para la confianza de los datos

Muy a menudo, utilizamos datos que se derivan de algunas medidas. Estas mediciones suelen tener asociada una medida de confianza que indica cuán confiable es la medida, o cuán seguros estamos acerca de la medida. Por ejemplo, a menudo vemos algunos intervalos de confianza asociados con varias encuestas.

Me preguntaba si hay una teoría o álgebra sobre la combinación de múltiples medidas y la medida de confianza resultante del agregado. Por ejemplo, si mido $X$ con un intervalo de confianza $\pm x\%$, $Y$ con un intervalo de confianza $\pm y\%$, ¿qué puedo decir acerca del intervalo de confianza de $X+Y$? Del mismo modo, ¿qué podemos decir acerca de los intervalos de confianza para otros operadores?

¿Existe un álgebra para esto?

8voto

AdamSane Puntos 1825

[Me doy cuenta de que hay cierta falta de claridad en la pregunta; los intervalos de confianza se aplican a cosas como parámetros, así como a medias u otras funciones de parámetros; si estamos hablando de intervalos para datos eso sería otro tipo de intervalo (intervalos de predicción, intervalos de tolerancia, etc.). Procederé como si estuviéramos discutiendo algo como medias.]

Si nos mantenemos con encuestas de tamaño típico para que entre en juego el TCL; entonces estamos tratando solo con las varianzas de cantidades normalmente distribuidas. Depende de la dependencia (específicamente, la covarianza) entre las cantidades.

$\rm{Var}(X + Y) = \rm{Var}(X) + \rm{Var}(Y) + 2 \rm{Cov}(X,Y)$

$\rm{Var}(X - Y) = \rm{Var}(X) + \rm{Var}(Y) - 2 \rm{Cov}(X,Y)$

(eso no depende de la normalidad, es general; la relevancia de los intervalos de confianza resultantes depende de la normalidad)

La amplitud de los intervalos de confianza para las proporciones $X$ e $Y$ y para su suma o diferencia se basan en sus respectivos errores estándar (la raíz cuadrada de la varianza).

Si $X$ e $Y$ son independientes (basado en diferentes encuestas por ejemplo) entonces las varianzas se suman porque las covarianzas son $0$.

Entonces se eleva al cuadrado la amplitud de los IC para $X$ e $Y$, se suman, y se toma la raíz cuadrada. Esa es la amplitud del IC para la suma o diferencia.

Si $X$ e $Y$ son dos proporciones de la misma encuesta, eso es incorrecto, ya que su covarianza es negativa. Si suman 100% o casi, simplemente se suman las amplitudes de sus IC para obtener la amplitud de la diferencia. (Para la suma, la varianza será 0 - o casi si no suman exactamente 100% - y la amplitud será un múltiplo de la raíz cuadrada de eso). Las estimaciones de las covarianzas pueden calcularse en general, utilizando resultados para la distribución multinomial.

1voto

Sean Hanley Puntos 2428

No sé si lo describiría como un álgebra especial per se, pero la idea esencial a la que te refieres es el Teorema del Límite Central. De hecho, el TLC es una de las piedras angulares de la estadística. Aunque normalmente discutimos el TLC en términos de la media, hay una conexión obvia entre la media de un conjunto de números y su suma. Puedes explorar este tema importante leyendo la página de Wikipedia vinculada, o leyendo hilos relacionados con el tema en CV buscando en la etiqueta central-limit-theorem. Aquí tienes un par de hilos buenos para empezar:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X