¿Cómo se calcula en la práctica la matriz de errores de varianza/covarianza por paquetes de análisis estadístico?
Esta idea me resulta clara en teoría. Pero no en la práctica. Es decir, si tengo un vector de variables aleatorias $\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\top$, entiendo que la matriz de varianza/covarianza $\Sigma$ se obtendrá a partir del producto externo de los vectores de desviación de la media: $\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right]$.
Pero cuando tengo una muestra, los errores de mis observaciones no son variables aleatorias. O mejor dicho, lo son, pero solo si tomo un número de muestras idénticas de la misma población. De lo contrario, están dados. Entonces, nuevamente mi pregunta es: ¿cómo puede un paquete estadístico producir una matriz de varianza/covarianza a partir de una lista de observaciones (es decir, una muestra) proporcionada por el investigador?
0 votos
Los errores de tus observaciones son función de variables aleatorias (las y) y por lo tanto también son aleatorias. Condicionales solo a X, no están dadas.
1 votos
Sí, estoy completamente de acuerdo en eso. Pero lo que dices funciona en teoría. Si saco, digamos, 100 muestras aleatorias de tamaño idéntico de la misma población, cada error de observación será una variable aleatoria con (0, sigma^2). ¿Qué pasa si, en cambio, solo saco una muestra? En ese caso, la media del error de cada observación es el error en sí mismo. ¿Está claro lo que estoy diciendo? Entonces, lo que estoy tratando de entender es, ¿cómo un paquete como Stata calcula la matriz de varianza-covarianza usando solo una muestra extraída de la población?