35 votos

¿Cuál es la diferencia entre "expectativa" y "varianza" para libros de estadística versus libros de probabilidad?

Parece que hay dos ideas de expectativa, varianza, etc. que están en marcha en nuestro mundo.

En cualquier libro de probabilidad:

Tengo una variable aleatoria $X$, que es una función del espacio muestral a la recta real. Ok, ahora defino el operador de expectativa, que es una función que asigna esta variable aleatoria a un número real, y esta función se ve así, $$\mathbb{E}[X] = \sum\limits_{i = 1}^n x_i p(x_i)$$ donde $p$ es la función de masa de probabilidad, $p: x_i \mapsto [0,1], \sum_{i = 1}^n p(x_i) = 1$ y $x_i \in \text{range}(X)$. La varianza es, $$\mathbb{E}[(X - \mathbb{E}[X])^2]$$

La definición es similar para una VA continua.


Sin embargo, en estadística, ciencia de datos, finanzas, bioinformática (y supongo el lenguaje cotidiano al hablar con tu madre)

Tengo un multiconjunto de datos $D = \{x_i\}_{i = 1}^n$ (peso de cebollas, altura de niños en edad escolar). La media de este conjunto de datos es

$$\dfrac{1}{n}\sum\limits_{i= 1}^n x_i$$

La varianza de este conjunto de datos (según "science buddy" y "mathisfun dot com" y gobierno de Canadá) es,

$$\dfrac{1}{n}\sum\limits_{i= 1}^n(x_i - \sum\limits_{j= 1}^n \dfrac{1}{n} x_j)^2$$


Quiero decir, ya puedo ver lo que está pasando aquí (uno está asumiendo distribución uniforme), sin embargo, quiero una explicación autoritativa sobre lo siguiente:

  1. ¿Es la distinción real? ¿Significa, hay un universo donde la expectativa/media/varianza... está definida para funciones/variables aleatorias y otro universo donde la expectativa/media/varianza... está definida para datos brutos? ¿O son básicamente lo mismo (con una suposición oculta/implícita)?

  2. ¿Por qué no se hace ninguna suposición probabilística al hablar de media o varianza cuando se trata de manejar datos en estadística o ciencia de datos (u otras áreas de la vida real)?

  3. ¿Existe un lenguaje consistente para distinguir estas dos terminologías aparentemente diferentes de media y varianza? Por ejemplo, si mi cajero me pregunta sobre el "peso medio" de dos elementos, ¿le pido la distribución probabilística de la variable aleatoria cuyas realizaciones son los pesos de estos dos elementos (def 1), o simplemente sumo los valores y divido (def 2)? ¿Cómo sé de qué media está hablando la persona?/

15voto

littleO Puntos 12894

Las primeras definiciones que diste son correctas y estándares, y los estadísticos y científicos de datos estarán de acuerdo con esto. (Estas definiciones se dan en los libros de texto de estadística.) El segundo conjunto de cantidades que describiste se llaman "media de la muestra" y "varianza de la muestra", no media y varianza.

Dada una muestra aleatoria de una variable aleatoria $X$, la media de la muestra y la varianza de la muestra son formas naturales de estimar el valor esperado y la varianza de $X$.

7voto

sleske Puntos 5824

Otras respuestas, particularmente la de Clarinetist, ofrecen excelentes descripciones del aspecto más importante de la respuesta. Dada una variable aleatoria, podemos muestrearla y usar la media de la muestra (definida en el sentido estadístico) para estimar la media real de la variable aleatoria (definida en el sentido de la teoría de la probabilidad), y de manera similar para la varianza, etc.

Pero la conexión en la otra dirección parece no haber sido mencionada aún. Esto no es tan importante, pero es mucho más directo y vale la pena señalarlo. Dada una muestra, es decir, un multiconjunto finito de valores $\{x_i\}_{i \in I}$, podemos "considerarlo como una distribución", es decir, tomar una variable aleatoria $X$, con valor $x_i$ para $i$ distribuido uniformemente sobre $I$. Entonces la media, varianza, etc. de $X$ (en el sentido de la teoría de la probabilidad) serán precisamente la media, varianza, etc. del multiconjunto original (definido en el sentido estadístico).

2voto

user958624 Puntos 168

La confusión realmente proviene de la notación, donde los símbolos significan cosas diferentes en dos fórmulas.

Primero, echemos un vistazo a la definición "probabilística": $$ \mathbb{E}[X] = \frac{1}{n}\sum_{i=1}^n x_i p(x_i) $$ Aquí la variable aleatoria $X$ toma $n$ valores distintos $x_1,\ldots, x_n$, cada uno con una función de masa de probabilidad $p(x_i)$.

En la definición "estadística" tenemos una estimación del valor esperado, basada en los valores observados de la variable aleatoria $z_1, \ldots, z_N$: $$ \hat{\mathbb{E}}[X] = \frac{1}{N}\sum_{j=1}^N z_j $$ Observa que he cambiado el nombre de las variables en comparación con tu fórmula original, para evitar la confusión. Aquí $N$ es el número de observaciones, y los $z_j$ son las observaciones reales. Por ejemplo, si $X$ es una variable aleatoria que representa los lanzamientos de un dado cargado, entonces $n = 6$ y ${x_i} = \{1, 2, 3, 4, 5, 6\}$; mientras que $N$ puede ser arbitrariamente grande, y los $z_j$ serán simplemente una larga secuencia de selecciones aleatorias del conjunto de ${x_i}$.

Ahora, puedes reescribir la fórmula "estadística" agrupando los diferentes valores de $z_j$ en grupos según a qué $x_i$ corresponden (por ejemplo, primero agrupar todos los 1s, luego todos los 2s, etc): $$ \hat{\mathbb{E}}[X] = \frac{1}{N}\big(x_1\cdot|\{z_j=x_1\}| + \cdots+x_n\cdot|\{z_j=x_n\}|\big) \\ =\frac{1}{N}\sum_{i=1}^n x_i \sum_{j=1}^N\mathbb{1}[z_j=x_i] \\ =\sum_{i=1}^n x_i \hat{p}(x_i) $$ donde $$ \hat{p}(x_i) = \frac{1}{N}\sum_{j=1}^N \mathbb{1}[z_j=x_i] $$ es la estimación de la función de masa de probabilidad: el número de veces que se encontró un valor $x_i$ en la muestra dividido por el tamaño de la muestra, es decir, la frecuencia observada del valor $x_i$.

Ahora puedes ver que las definiciones "probabilística" y "estadística" son en realidad iguales, con la única diferencia de que reemplazamos la función de distribución de masa teórica $p(x)$ (que puede no ser conocida) con la función de distribución de masa empírica (observada) $\hat{p}(x)$.

0voto

Acccumulation Puntos 13

La expresión general para la media aritmética es $\frac{\sum\limits_{i= 1}^n w_i x_i}{\sum\limits_{i= 1}^n w_i}$, o aún más generalmente, $\frac{\int w(t) f(t)dt}{\int f(t)dt}$ (hay formas de recuperar el caso discreto a partir de eso).

Si configuras todos los $w_i$ a $1$, o realmente a cualquier cosa siempre y cuando sea constante, obtienes $\dfrac{1}{n}\sum\limits_{i= 1}^n x_i$. Esto se conoce como un promedio "no ponderado", aunque técnicamente sigue siendo ponderado, es solo que estás multiplicando todo por $1$, por lo que no lo notas. Si configuras $p_i = \frac{w_i}{ \sum\limits_{k= 1}^n w_k}$, e interpretas $p_i$ como la probabilidad del evento $i$, entonces obtienes el promedio ponderado por probabilidad, que también se conoce como valor esperado.

Hay que tener cuidado con los promedios "no ponderados", ya que a menudo en realidad están ponderados, pero por pesos que no querías. Por ejemplo, supongamos que quieres el promedio de ingresos en los EE.UU., y tienes el ingreso promedio para cada estado individualmente. Podrías simplemente sumar todos esos promedios y luego dividir por $50$. A menudo llaman a esto el promedio "no ponderado" o "simple", pero en realidad estás ponderando a las personas por el recíproco de la población de sus estados; cuanto menos personas haya en un estado, más afecta cada persona al promedio de ese estado, y por lo tanto más afectan al promedio "no ponderado" total. Como resultado, para obtener el promedio real de ingresos en general a partir de los promedios de los estados individuales, debes multiplicar el promedio de cada estado por su población para obtener su ingreso total, sumarlos todos y luego dividir por la población total.

Una ponderación común que verás es la ponderación por frecuencia. Aquí es donde multiplicas cada valor por el número de veces que aparece. Por ejemplo, si mides algo una vez al mes durante un año, y los únicos valores que obtienes son $0$, $1$ y $2$, tomar el promedio simple de esos valores te da $1$. Pero eso probablemente no sea el promedio real. Para obtener un promedio más significativo, debes tomar cada uno de estos valores, ponderarlos por cuántos meses aparecen, y luego tomar el promedio.

Una propiedad de los promedios ponderados es que multiplicar todos los pesos por un número constante no cambia el resultado final (simplemente lo divides nuevamente cuando divides por el total de los pesos). Por lo tanto, ponderar por las frecuencias es equivalente a ponderar por el porcentaje de casos que representa cada valor. Es decir, si $0$ es el valor para $5$ meses, $1$ es el valor para $4$ meses, y $2$ es el valor para $3$, la ponderación de $5,4,3$ es equivalente a la ponderación de $\frac 5 {12},\frac 4{12},\frac 3{12}$.

Por lo tanto, si tienes una distribución de probabilidad donde una cosa tiene un $60$% de probabilidad de ocurrir, y otra cosa tiene un $40$% de probabilidad de ocurrir, el valor esperado es simplemente el promedio ponderado por frecuencia.

Por ejemplo, si mi cajero me pregunta sobre el "peso promedio" de dos artículos, ¿le pido la distribución probabilística de la variable aleatoria cuyas realizaciones son los pesos de estos dos artículos (def 1), o simplemente sumo los valores y divido (def 2)? ¿Cómo sé de qué promedio está hablando la persona?

El valor esperado de una variable aleatoria es el valor esperado de esa variable aleatoria. Es una propiedad de la distribución. Si te piden el valor esperado de una variable aleatoria, encuentras el valor esperado de esa variable aleatoria. Si no te piden el valor esperado de una variable aleatoria, no buscas una variable aleatoria para encontrar el valor esperado. Cómo sabes si tomas el valor esperado de una variable aleatoria es si hay una variable aleatoria de la que tomar el valor esperado. Incluso si los valores provienen de una distribución, el promedio de esos valores es el promedio de esos valores, no el promedio de la distribución de la que provienen.

Si las personas están hablando rigurosamente, dirán explícitamente que quieren el valor esperado. Sin embargo, es posible que veas a personas que piden la "media" o "promedio", cuando realmente quieren el valor esperado, pero puedes reconocer esos casos si hay una variable aleatoria. Por ejemplo, si alguien pregunta "¿Cuál es el pago promedio de esta máquina tragamonedas?", el contexto sugiere que deberías tomar el valor esperado de la distribución de pagos, y no simplemente tomar el conjunto de diferentes pagos posibles y tomar el promedio simple. Podría haber cierta ambigüedad en cuanto a si "el pago" se refiere al proceso aleatorio que paga dinero, en cuyo caso deberías tomar el valor esperado de la distribución (media poblacional), o el dinero real pagado, en cuyo caso deberías tomar el promedio de todos los pagos reales realizados por la máquina (media de la muestra), pero en este último caso, aún así deberías tomar el promedio ponderado por frecuencia.

0voto

Botnakov N. Puntos 26

Voy a añadir algunas ilustraciones a respuestas anteriores, especialmente a la respuesta de Peter LeFanu Lumsdaine.

Declaración: el universo "estadístico" de tu pregunta es un caso parcial de universo "probabilístico".

Necesitamos alguna notación. Supongamos que tenemos una variable aleatoria $\xi$ en el sentido de la teoría de la probabilidad y $P(\xi = x_k) = p_k$, $0 \le k \le n$.

Por ejemplo, considera $\xi$ que es igual al número de niños en una familia aleatoria "abstracta". Pon $x_k = k$. Entonces $E \xi = \sum_{k=0}^n x_k p_k$ donde $p_k = P(\xi = x_k)$, y $D\xi = E (\xi - E\xi)^2 = \sum_{k=0}^n p_k (x_k - E\xi )^2$. Además, $P(\xi = 69) > 0$ (según Guinness World Records, no estoy seguro, pero supongamos que es un récord en la actualidad) y como ha habido personas con $69$ hijos entonces podemos pensar que por ejemplo $P(80) > 0$ - es natural, porque $80$ hijos son posibles, aunque los Guinness World Records dicen que todavía nadie ha tenido $80$ hijos.

En realidad no tenemos una familia aleatoria abstracta, madres aleatorias, padres aleatorios y niños aleatorios. Tenemos un número finito $N$ ( $ 10^6 < N < 10^{100}$) de familias, las numeramos, y hay $y_1$ hijos en la primera familia, hay $y_2$ hijos en la familia número $2$, ..., hay $y_N$ hijos en la familia $N$.

Analogía: $\xi$ corresponde a un dado justo en sí mismo y los números $y_1$, $y_2$, ... corresponden a los lanzamientos del dado y tienen la forma: $5, 1, 6, 6, 3, ...$, estos son números fijos.

Ahora considera un valor aleatorio $\tau$, que tiene una distribución uniforme en $\{ 1, 2, \ldots, N\}$. Esto significa que $P(\tau = k) = \frac{1}{N}$ para todo $1 \le k \le N$.

Los números $y_1, \ldots, y_N$ son fijos - supongamos que están escritos en alguna tabla sociológica. Consideremos un valor aleatorio $y_{\tau}$. No es un número de niños en una familia aleatoria abstracta. Es el número de niños en alguna familia real, si elegimos aleatoriamente un número $\tau$ de esa familia.

Encontremos $E y_{\tau}$ y $D y_{\tau}$. Con probabilidad $\frac{1}N$ tenemos $\tau = k$ y por lo tanto $y_{\tau} = y_k$. Así que $$E y_{\tau}=\frac{1}N \sum_{k=1}^N y_k$$ y $$D y_{\tau} = E (y_{\tau} - Ey_{\tau})^2 = E (y_{\tau} - \frac{1}N \sum_{k=1}^N y_k )^2 = \frac{1}N \sum_{k=0}^N (y_k -\frac{1}N \sum_{k=1}^N y_k )^2.$$

Ahora la correspondencia del universo "estadístico" y el universo "probabilístico" es obvia.

Observa que todos los $y_i \le 69$ y $y_i = 69$ es el valor máximo, pero el valor máximo de $\xi$ es mayor (y no menos que $80$).

Por lo tanto, hemos demostrado que el universo "estadístico" es un caso parcial del universo "probabilístico".

Además, hay dos momentos, cuando hay aleatoriedad:

  1. cuando pasamos de una familia aleatoria abstracta, correspondiente a $\xi$, a los números $y_1, \ldots, y_N$ de un manual sociológico.

Como se mencionó anteriormente, hay una analogía: $\xi$ corresponde a un dado justo en sí mismo y los números $y_1$, $y_2$, ... corresponden a los lanzamientos del dado y tienen la forma: $5, 1, 6, 6, 3, ...$, estos son números fijos.

  1. [aquí suponemos que $y_1, \ldots, y_N$ son números fijos] cuando pasamos de todo el manual sociológico a una familia con un número aleatorio $\tau$ y vemos cuántos niños hay en esta familia. El número es $y_{\tau}$.

Cuando pasamos de $y_{\tau}$ a $E y_{\tau} = \frac{1}N \sum_{k=1}^N y_k$, nos deshacemos de la segunda aleatoriedad, pero aún no nos deshacemos de la primera aleatoriedad. Está conectado con el hecho de que los números $y_k$ podrían ser diferentes: podría suceder que en algunas familias hubiera más niños, y en otras familias hubiera menos niños, si las circunstancias fueran diferentes. En este sentido, los números $y_i$ no son fijos: son variables aleatorias muestreadas de una distribución, correspondiente a $\xi$. Y en este sentido $\frac{1}N \sum_{k=1} y_k$ es un valor aleatorio, y podemos escribir teoremas límite como L.L.N.: $$\frac{1}N \sum_{k=1}^N y_k \to E\xi, \text{ }N \to \infty$$ o CLT o LIL.

Adición: se ha demostrado que si $y_1, \ldots, y_N$ son números fijos y $\tau$ es aleatorio entonces la media (expectativa) "probabilística" de $y_{\tau}$ y la varianza "probabilística" de $ y_{\tau}$ son la media muestral y la varianza muestral bien conocidas.

Espero que sea útil. Si tienes alguna pregunta, no dudes en hacerla.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X