38 votos

¿Una medida de la "varianza" de la matriz de covarianza?

Si los datos son 1d, la varianza muestra en qué medida los puntos de datos son diferentes entre sí. Si los datos son multidimensionales, obtendremos una matriz de covarianza.

¿Existe una medida que proporcione un número único de la diferencia entre los puntos de datos en general para los datos multidimensionales?

Creo que puede haber ya muchas soluciones, pero no estoy seguro del término correcto para buscarlas.

Quizá pueda hacer algo como sumar los valores propios de la matriz de covarianza, ¿suena sensato?

26voto

Tomas Lycken Puntos 23432

La varianza de una variable escalar se define como la desviación al cuadrado de la variable respecto a su media:

$$\operatorname{Var}(X) = \operatorname E\left[\left(X - \operatorname E\left[X\right]\right)^2\right]$$

Una generalización a una varianza de valor escalar para variables aleatorias de valor vectorial puede obtenerse interpretando la desviación como la Distancia euclidiana :

$$\operatorname{Var_s}(\mathbf X) = \operatorname E\left[\left\|\mathbf X - \operatorname E\left[\mathbf X\right]\right\|_2^2\right]$$

Esta expresión puede reescribirse como

$$\begin{array}{rcl} \operatorname{Var_s}(\mathbf X) & = & \operatorname E[(\mathbf X - \operatorname E[\mathbf X ])\cdot(\mathbf X - \operatorname E[\mathbf X ])] \\ & = & \operatorname E\left[\sum_{i=1}^n(X_i - \operatorname E[X_i])^2\right] \\ & = & \sum_{i=1}^n \operatorname E\left[(X_i - \operatorname E[X_i])^2\right] \\ & = & \sum_{i=1}^n \operatorname{Var}(X_i) \\ & = & \sum_{i=1}^n C_{ii} \end{array}$$

donde $\mathbf{C}$ es la matriz de covarianza. Finalmente, esto se puede simplificar a

$$\operatorname{Var_s}(\mathbf X) = \operatorname{tr}(\mathbf{C})$$

que es el rastrear de la matriz de covarianza.

25voto

Patrick Puntos 183

(La respuesta que sigue se limita a introducir y exponer el teorema demostrado en la Ec. (0) La belleza de ese documento es que la mayoría de los argumentos se hacen en términos de álgebra lineal básica. Para responder a esta pregunta bastará con exponer los principales resultados, pero no dudes en consultar la fuente original).

En cualquier situación en la que el patrón multivariante de los datos pueda ser descrito por una $k$ -La inferencia estadística se reduce, por definición, al problema de ajustar (y caracterizar) una distribución elíptica variable. $k$ -vector de localización variable (digamos $\boldsymbol\theta$ ) y un $k\times k$ matriz simétrica semipositiva definida (SPSD) (digamos $\boldsymbol\varSigma$ ) a los datos. Por las razones que se explican a continuación (que se asumen como premisas) a menudo será más significativo descomponer $\boldsymbol\varSigma$ en su componente de forma (una matriz SPSD del mismo tamaño que $\boldsymbol\varSigma$ ) que representa la forma de los contornos de la densidad de su distribución multivariante y un escalar $\sigma_S$ expresando la escala de estos contornos.

En los datos univariantes ( $k=1$ ), $\boldsymbol\varSigma$ la matriz de covarianza de sus datos es un escalar y, como se deduce de la discusión que sigue, el componente de forma de $\boldsymbol\varSigma$ es 1 para que $\boldsymbol\varSigma$ es igual a su componente de escala $\boldsymbol\varSigma=\sigma_S$ siempre y no hay ambigüedad posible.

En los datos multivariantes, hay muchas opciones posibles para las funciones de escala $\sigma_S$ . Uno en particular ( $\sigma_S=|\pmb\varSigma|^{1/k}$ ) destaca por tener una propiedad clave deseable, lo que la convierte en la opción preferida de las funciones de escala en el contexto de las familias elípticas.


Muchos problemas en la estadística MV implican la estimación de una matriz de dispersión, definida como una función(al) matriz SPSD en $\mathbb{R}^{k\times k}$ ( $\boldsymbol\varSigma$ ) satisfactoria:

$$(0)\quad\boldsymbol\varSigma(\boldsymbol A\boldsymbol X+\boldsymbol b)=\boldsymbol A\boldsymbol\varSigma(\boldsymbol X)\boldsymbol A^\top$$ (para matrices no singulares $\boldsymbol A$ y vectores $\boldsymbol b$ ). Por ejemplo, la estimación clásica de la covarianza satisface (0), pero no es en absoluto la única.

En presencia de datos distribuidos elípticamente, donde todos los contornos de densidad son elipses definidas por la misma matriz de forma, hasta la multiplicación por un escalar, es natural considerar versiones normalizadas de $\boldsymbol\varSigma$ de la forma:

$$\boldsymbol V_S = \boldsymbol\varSigma / S(\boldsymbol\varSigma)$$

donde $S$ es una función 1-honógena que satisface

$$(1)\quad S(\lambda \boldsymbol\varSigma)=\lambda S(\boldsymbol\varSigma) $$

para todos $\lambda>0$ . Entonces, $\boldsymbol V_S$ se denomina componente de forma de la matriz de dispersión (en definitiva, matriz de forma) y $\sigma_S=S^{1/2}(\boldsymbol\varSigma)$ se denomina componente de escala de la matriz de dispersión. Ejemplos de problemas de estimación multivariante en los que la función de pérdida sólo depende de $\boldsymbol\varSigma$ a través de su componente de forma $\boldsymbol V_S$ incluyen pruebas de esfericidad, PCA y CCA, entre otras.

Por supuesto, hay muchas funciones de escala posibles, por lo que todavía queda abierta la cuestión de cuál (si es que hay alguna) de las varias opciones de función de normalización $S$ son en cierto sentido óptimas. Por ejemplo:

  • $S=\text{tr}(\boldsymbol\varSigma)/k$ (por ejemplo el propuesto por @amoeba en su comentario debajo de la pregunta del OP así como la respuesta de @HelloGoodbye más abajo. Véase también [1], [2], [3])
  • $S=|\boldsymbol\varSigma|^{1/k}$ ([4], [5], [6], [7], [8])
  • $\boldsymbol\varSigma_{11}$ (la primera entrada de la matriz de covarianza)
  • $\lambda_1(\boldsymbol\varSigma)$ (el primer valor propio de $\boldsymbol\varSigma$ ), esto se llama norma espectral y se discute en la respuesta de @Aksakal más abajo.

Entre ellas, $S=|\boldsymbol\varSigma|^{1/k}$ es la única función de escala para la que la matriz de información de Fisher para las correspondientes estimaciones de escala y forma, en familias localmente asintóticamente normales, son diagonales en bloque (es decir, los componentes de escala y forma del problema de estimación son asintóticamente ortogonales) [0]. Esto significa, entre otras cosas, que la función de escala $S=|\boldsymbol\varSigma|^{1/k}$ es la única opción de $S$ para el que la no especificación de $\sigma_S$ no causa ninguna pérdida de eficiencia al realizar la inferencia sobre $\boldsymbol V_S$ .

No conozco ninguna caracterización de optimalidad comparativamente fuerte para cualquiera de las muchas opciones posibles de $S$ que satisfagan (1).

  • [0] Paindaveine, D., A canonical definition of shape, Statistics & Probability Letters, Volume 78, Issue 14, 1 October 2008, Pages 2240-2247. Enlace no marcado
  • [1] Dumbgen, L. (1998). On Tyler's M-functional of scatter in high dimension, Ann. Inst. Statist. Math. 50, 471-491.
  • [2] Ollila, E., T.P. Hettmansperger y H. Oja (2004). Affine equivariant multivariate sign methods. Preprint, University of Jyvaskyla.
  • [3] Tyler, D.E. (1983). Robustness and efficiency properties of scatter matrices, Biometrika 70, 411-420.
  • [4] Dumbgen, L., y D.E. Tyler (2005). On the breakdown properties of some multivariate M-Functionals, Scand. J. Statist. 32, 247-264.
  • [5] Hallin, M. y D. Paindaveine (2008). Optimal rank-based tests for homogeneity of scatter, Ann. Statist, pendiente de publicación.
  • [6] Salibian-Barrera, M., S. Van Aelst y G. Willems (200 6). Principal components analysis based on multivariate MM-estimators with fast and robust bootstrap, J. Amer. Statist. Assoc. 101, 1198-1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila y H. O ja (2006). Funciones de influencia y eficiencias de la correlación canónica y estimaciones vectoriales basadas en matrices de dispersión y de forma, J. Multivariate Anal. 97, 359-384.
  • [8] Tatsuoka, K.S., y D.E. Tyler (2000). On the uniqueness of S-Functionals and M-functionals under nonelliptical distributions, Ann. Statist. 28, 1219-1243.

14voto

pokem Puntos 16

Aunque el rastrear de la matriz de covarianza, tr(C) El indicador de la varianza total no tiene en cuenta la correlación entre las variables.

Si necesita una medida de la varianza global que sea grande cuando las variables son independientes entre sí y muy pequeña cuando las variables están muy correlacionadas, puede utilizar el determinante de la matriz de covarianza, |C| .

Por favor, vea este artículo para una mejor aclaración.

8voto

Aksakal Puntos 11351

Si sólo necesitas un número, te sugiero que tomes el mayor valor propio de la matriz de covarianza. Esto es también una varianza explicada del primer componente principal en PCA. Le dice cuánto de la varianza total se puede explicar si usted reduce la dimensionalidad de su vector a uno. Véase esta respuesta en matemáticas SE.

La idea es que colapses tu vector en una sola dimensión combinando todas las variables linealmente en una sola serie, terminando con un problema de 1d.

La varianza explicada se puede comunicar en términos de porcentaje de la varianza total. En este caso se verá inmediatamente si hay mucha correlación lineal entre las series. En algunas aplicaciones, este número puede ser del 80% o más, por ejemplo, en la modelización de la curva de tipos de interés en finanzas. Esto significa que se puede construir una combinación lineal de variables que explique el 80% de la varianza de todas las variables.

4voto

dontloo Puntos 334

El concepto de entropía de la teoría de la información parece adecuado para este propósito, como medida de la imprevisibilidad del contenido de la información, que viene dada por $$H(X)=-\int p(x)\log p(x) dx.$$

Si asumimos una distribución gaussiana multivariante para $p(x)$ con la media $\mu$ y la covarianza $\Sigma$ derivados de los datos, según wikipedia la entropía diferencial es entonces, $$H(X)=\frac{1}{2}\log((2\pi e)^n\det(\Sigma))$$ donde $n$ es el número de dimensiones. Dado que La gaussiana multivariante es la distribución que maximiza la entropía diferencial para una covarianza dada Esta fórmula da un límite superior de entropía para una distribución desconocida con una varianza dada.

Y depende del determinante de la matriz de covarianza, como sugiere @user603.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X