37 votos

¿Por qué la matriz de covarianza de una muestra es singular cuando el tamaño de la muestra es menor que el número de variables?

Digamos que tengo un $p$ -de la distribución gaussiana multivariante. Y tomo $n$ observaciones (cada una de ellas un $p$ -) de esta distribución y calcular la matriz de covarianza de la muestra $S$ . En este papel los autores afirman que la matriz de covarianza de la muestra calculada con $p > n$ es singular.

  • ¿Cómo es de cierto o derivado?
  • ¿Alguna explicación?

6 votos

Nótese que esto es cierto independientemente de la distribución subyacente: no es necesario que sea gaussiana.

27voto

AdamSane Puntos 1825

Algunos hechos sobre los rangos de las matrices, ofrecidos sin pruebas (pero las pruebas de todos o casi todos ellos deberían darse en los textos estándar de álgebra lineal o, en algunos casos, establecerse como ejercicios después de dar suficiente información para poder hacerlo):

Si $A$ y $B$ son dos matrices conformables, entonces:

(i) rango de columna de $A$ = rango de fila de $A$

(ii) $\text{rank}(A) = \text{rank}(A^T) = \text{rank}(A^TA) = \text{rank}(AA^T)$

(iii) $\text{rank}(AB)\leq \min(\text{rank}(A),\text{rank}(B))$

(iv) $\text{rank}(A+B) \leq \text{rank}(A) + \text{rank}(B)$

(v) si $B$ es una matriz cuadrada de rango completo, entonces $\text{rank}(AB) = \text{rank}(A)$

Considere la $n\times p$ matriz de datos de la muestra, $y$ . De lo anterior, el rango de $y$ es como máximo $\min(n,p)$ .

Además, de lo anterior se desprende claramente el rango de $S$ no será mayor que el rango de $y$ (considerando el cómputo de $S$ en forma de matriz, quizás con alguna simplificación).

Si $n<p$ entonces $\text{rank}(y)<p$ en cuyo caso $\text{rank}(S)<p$ .

0 votos

¡buena respuesta! Sin embargo, no está del todo claro cómo se relacionan y y S con A y B.

0 votos

S se calcula a partir de y; ("x" en el post original). Puedes utilizar los hechos sobre y y las manipulaciones realizadas en él (a través de las reglas anteriores) para obtener un límite en el rango de S. Los papeles desempeñados por A y B cambian de un paso a otro.

0 votos

De la wikipedia: "En matemáticas, una matriz es conformable si sus dimensiones son adecuadas para definir alguna operación (por ejemplo, suma, multiplicación, etc.)".

22voto

Ozgurv Puntos 11

La respuesta corta a su pregunta es que el rango $(S) \le n - 1$ . Así que si $p > n$ entonces $S$ es singular.

Para una respuesta más detallada, recuerde que la matriz de covarianza muestral (insesgada) puede escribirse como

$$ S = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})(x_i - \bar{x})^T. $$

Efectivamente, estamos sumando $n$ matrices, cada una de las cuales tiene un rango de 1. Suponiendo que las observaciones son linealmente independientes, en cierto sentido cada observación $x_i$ contribuye con 1 al rango $(S)$ y se resta un 1 al rango (si $p > n$ ) porque centramos cada observación por $\bar{x}$ . Sin embargo, si multicolinealidad está presente en las observaciones, entonces el rango $(S)$ puede reducirse, lo que explica que el rango pueda ser menor que $n - 1$ .

Se ha dedicado una gran cantidad de trabajo a estudiar este problema. Por ejemplo, un colega mío y yo escribimos un papel sobre este mismo tema, en el que nos interesaba determinar cómo proceder si $S$ es singular cuando se aplica a análisis discriminante lineal en el $p \gg n$ el escenario.

4 votos

¿Podría explicar por qué? restar 1 porque centramos cada observación por $\bar x$ ?

0 votos

@loganecolss: Ver ¿Por qué el rango de la matriz de covarianza es como máximo $n1$ ? para responder a su pregunta.

0 votos

¡Buena respuesta! Tal vez podría añadir una explicación/enlace para el hecho de que la declaración estamos sumando matrices, cada una con un rango de 1 ? Gracias.

17voto

jldugger Puntos 7490

Cuando se observa la situación de forma correcta, la conclusión es intuitivamente obvia e inmediata.

Este puesto ofrece dos demostraciones. La primera, inmediatamente abajo, es en palabras. Equivale a un simple dibujo, que aparece al final. En medio hay una explicación de lo que significan las palabras y el dibujo.


La matriz de covarianza para $n$ $p$ -observaciones variables es un $p\times p$ matriz calculada mediante la multiplicación por la izquierda de una matriz $\mathbb{X}_{np}$ (los datos recentrados) por su transposición $\mathbb{X}_{pn}^\prime$ . Este producto de matrices envía los vectores a través de una tubería de espacios vectoriales en los que las dimensiones son $p$ y $n$ . En consecuencia, la matriz de covarianza, qua transformación lineal, enviará $\mathbb{R}^n$ en un subespacio cuya dimensión es como máximo $\min(p,n)$ . Es inmediato que el rango de la matriz de covarianza no es mayor que $\min(p,n)$ . En consecuencia, si $p\gt n$ entonces el rango es como máximo $n$ que, al ser estrictamente menor que $p$ -- significa que la matriz de covarianza es singular.

Toda esta terminología se explica con detalle en el resto de este post.

(Como amablemente señaló Amoeba en un comentario ahora borrado, y muestra en una respuesta a una pregunta relacionada la imagen de $\mathbb X$ se encuentra realmente en un subespacio de codimensión uno de $\mathbb{R}^n$ (formado por vectores cuyos componentes suman cero) porque sus columnas se han recentrado en cero. Por lo tanto, el rango de la matriz de covarianza de la muestra $\frac{1}{n-1}\mathbb{X}^\prime \mathbb{X}$ no puede superar $n-1$ .)


El álgebra lineal consiste en seguir las dimensiones de los espacios vectoriales. Basta con apreciar algunos conceptos fundamentales para tener una profunda intuición de las afirmaciones sobre el rango y la singularidad:

  1. La multiplicación de matrices representa transformaciones lineales de vectores. Un $m\times n$ matriz $\mathbb{M}$ representa una transformación lineal de un $n$ -espacio dimensional $V^n$ a un $m$ -espacio dimensional $V^m$ . En concreto, envía cualquier $x\in V^n$ a $\mathbb{M}x = y \in V^m$ . Que se trata de una transformación lineal se deduce inmediatamente de la definición de transformación lineal y de las propiedades aritméticas básicas de la multiplicación de matrices.

  2. Las transformaciones lineales nunca pueden aumentar las dimensiones. Esto significa que la imagen de todo el espacio vectorial $V^n$ bajo la transformación $\mathbb M$ (que es un subespacio vectorial de $V^m$ ) puede tener una dimensión no superior a $n$ . Este es un teorema (fácil) que se desprende de la definición de dimensión.

  3. La dimensión de cualquier espacio subvectorial no puede superar la del espacio en el que se encuentra. Esto es un teorema, pero de nuevo es obvio y fácil de demostrar.

  4. El rango de una transformación lineal es la dimensión de su imagen. El rango de una matriz es el rango de la transformación lineal que representa. Estas son las definiciones.

  5. A singular matriz $\mathbb{M}_{mn}$ tiene un rango estrictamente inferior a $n$ (la dimensión de su dominio). En otras palabras, su imagen tiene una dimensión menor. Esta es una definición.

Para desarrollar la intuición, ayuda véase las dimensiones. Por lo tanto, escribiré las dimensiones de todos los vectores y matrices inmediatamente después de ellos, como en $\mathbb{M}_{mn}$ y $x_n$ . Así, la fórmula genérica

$$y_m = \mathbb{M}_{mn} x_n$$

pretende significar que el $m\times n$ matriz $\mathbb M$ cuando se aplica al $n$ -vector $x$ produce un $m$ -vector $y$ .

Los productos de las matrices pueden considerarse como una "cadena" de transformaciones lineales. De forma genérica, supongamos que $y_a$ es un $a$ -vector dimensional resultante de las sucesivas aplicaciones de las transformaciones lineales $\mathbb{M}_{mn}, \mathbb{L}_{lm}, \ldots, \mathbb{B}_{bc},$ y $\mathbb{A}_{ab}$ a la $n$ -vector $x_n$ procedentes del espacio $V^n$ . Esto toma el vector $x_n$ sucesivamente a través de un conjunto de espacios vectoriales de dimensiones $m, l, \ldots, c, b,$ y finalmente $a$ .

Busque el cuello de botella : como las dimensiones no pueden aumentar (punto 2) y los subespacios no pueden tener dimensiones mayores que los espacios en los que se encuentran (punto 3), se deduce que la dimensión de la imagen de $V^n$ no puede superar el El más pequeño dimensión $\min(a,b,c,\ldots,l,m,n)$ encontrados en la tubería.


Este diagrama de la tubería, por lo tanto, demuestra plenamente el resultado cuando se aplica al producto $\mathbb{X}^\prime \mathbb{X}$ :

! enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X