Parece que hay dos ideas de expectativa, varianza, etc. que están en marcha en nuestro mundo.
En cualquier libro de probabilidad:
Tengo una variable aleatoria $X$, que es una función del espacio muestral a la recta real. Ok, ahora defino el operador de expectativa, que es una función que asigna esta variable aleatoria a un número real, y esta función se ve así, $$\mathbb{E}[X] = \sum\limits_{i = 1}^n x_i p(x_i)$$ donde $p$ es la función de masa de probabilidad, $p: x_i \mapsto [0,1], \sum_{i = 1}^n p(x_i) = 1$ y $x_i \in \text{range}(X)$. La varianza es, $$\mathbb{E}[(X - \mathbb{E}[X])^2]$$
La definición es similar para una VA continua.
Sin embargo, en estadística, ciencia de datos, finanzas, bioinformática (y supongo el lenguaje cotidiano al hablar con tu madre)
Tengo un multiconjunto de datos $D = \{x_i\}_{i = 1}^n$ (peso de cebollas, altura de niños en edad escolar). La media de este conjunto de datos es
$$\dfrac{1}{n}\sum\limits_{i= 1}^n x_i$$
La varianza de este conjunto de datos (según "science buddy" y "mathisfun dot com" y gobierno de Canadá) es,
$$\dfrac{1}{n}\sum\limits_{i= 1}^n(x_i - \sum\limits_{j= 1}^n \dfrac{1}{n} x_j)^2$$
Quiero decir, ya puedo ver lo que está pasando aquí (uno está asumiendo distribución uniforme), sin embargo, quiero una explicación autoritativa sobre lo siguiente:
-
¿Es la distinción real? ¿Significa, hay un universo donde la expectativa/media/varianza... está definida para funciones/variables aleatorias y otro universo donde la expectativa/media/varianza... está definida para datos brutos? ¿O son básicamente lo mismo (con una suposición oculta/implícita)?
-
¿Por qué no se hace ninguna suposición probabilística al hablar de media o varianza cuando se trata de manejar datos en estadística o ciencia de datos (u otras áreas de la vida real)?
-
¿Existe un lenguaje consistente para distinguir estas dos terminologías aparentemente diferentes de media y varianza? Por ejemplo, si mi cajero me pregunta sobre el "peso medio" de dos elementos, ¿le pido la distribución probabilística de la variable aleatoria cuyas realizaciones son los pesos de estos dos elementos (def 1), o simplemente sumo los valores y divido (def 2)? ¿Cómo sé de qué media está hablando la persona?/