17 votos

Condiciones suficientes y necesarias para el valor propio cero de una matriz de correlación

Dado $n$ variable aleatoria $X_i$, con distribución de probabilidad $P(X_1,\ldots,X_n)$, la matriz de correlación $C_{ij}=E[X_i X_j]-E[X_i]E[X_j]$ es positivo semi-definida, es decir, sus valores propios son positivos o cero.

Estoy interesado en las condiciones en las $P$ que son necesarias y/o suficientes para $C$ a ha $m$ cero autovalores. Por ejemplo, una condición suficiente es que las variables aleatorias no son independientes : $\sum_i u_i X_i=0$ para algunos números reales $u_i$. Por ejemplo, si $P(X_1,\ldots,X_n)=\delta(X_1-X_2)p(X_2,\ldots,X_n)$, $\vec u=(1,-1,0,\ldots,0)$ es un autovector de a $C$ con autovalor cero. Si tenemos $m$ independiente restricciones lineales en el $X_i$'s de este tipo implicaría $m$ cero autovalores.

Hay al menos otro (pero trivial) la posibilidad, al $X_a=E[X_a]$ algunos $a$ ( $P(X_1,\ldots,X_n)\propto\delta(X_a-E[X_a])$ ), ya que en ese caso $C_{ij}$ tiene una columna y una línea de ceros : $C_{ia}=C_{ai}=0,\,\forall i$. Como no es muy interesante, estoy suponiendo que la distribución de probabilidad no es de esa forma.

Mi pregunta es : son restricciones lineales la única manera de inducir a cero autovalores (si prohibimos el trivial de excepción que se da de arriba), o puede que no-lineal restricciones sobre las variables aleatorias, también, generar cero autovalores de a $C$ ?

8voto

user164061 Puntos 281

Independencia lineal no es sólo suficiente, sino también una necesaria condición

Para demostrar que la varianza-covarianza de la matriz tiene los autovalores igual a cero si y sólo si las variables no son linealmente independientes, sólo queda demostrado que "si la matriz tiene los autovalores iguales a cero, entonces las variables no son linealmente independientes".

Si usted tiene un autovalor cero para$C_{ij} = \text{Cov}(X_i,X_j)$, entonces hay una cierta combinación lineal (definido por el autovector $v$)

$$Y = \sum_{i=1}^n v_i (X_i) $$

tal que

$$\begin{array}{rcl} \text{Cov}(Y,Y) &=& \sum_{i=1}^n \sum_{j=1}^n v_i v_j \text{Cov}(X_i,X_j) \\ &=&\sum_{i=1}^n v_i\sum_{j=1}^n v_j C_{ij} \\ &= &\sum_{i=1}^n v_i \cdot 0 \\ &=& 0 \end{array}$$

lo que significa que $Y$ tiene que ser una constante y por lo tanto las variables $X_i$ han sumar una constante y son constantes a sí mismos (en el caso trivial) o no linealmente independiente.

- la primera línea en la ecuación con $\text{Cov}(Y,Y)$ es debido a la propiedad de la covarianza $$\scriptsize\text{Cov}(aU+bV,cW+dX) = ac\,\text{Cov}(U,W) + bc\,\text{Cov}(V,W) +ad\, \text{Cov}(U,X) + bd \,\text{Cov}(V,X) $$

- el paso de la segunda a la tercera línea es debido a la propiedad de un cero autovalor $$\scriptsize \sum_{j=1}^nv_jC_{ij} = 0$$


No restricciones lineales

Así, desde restricciones lineales son una necesaria condición (no suficiente), no lineal restricciones sólo será relevante cuando indirectamente implican un (necesario) lineal restricción.

De hecho, hay una correspondencia directa entre los vectores propios asociados con el autovalor cero y las restricciones lineales.

$$C \cdot v = 0 \iff Y = \sum_{i=1}^n v_i X_i = \text{const}$$

Por lo tanto no-lineal de las limitaciones que conducen a un autovalor cero debe, junto combinados, generan algunos lineal restricción.


Cómo puede no lineal restricciones conducen a restricciones lineales

Su ejemplo, en los comentarios pueden mostrar intuitivamente cómo no-lineal restricciones pueden conducir a restricciones lineales mediante la inversión de la derivación. La falta de restricciones lineales

$$\begin{array}{lcr} a^2+b^2&=&1\\ c^2+d^2&=&1\\ ac + bd &=& 0 \\ ad - bc &=& 1 \end{array}$$

puede ser reducido a

$$\begin{array}{lcr} a^2+b^2&=&1\\ c^2+d^2&=&1\\ a-d&=&0 \\ b+c &=& 0 \end{array}$$

Usted podría inversa de este. Dicen que usted tiene no lineal más restricciones lineales, entonces no es extraño imaginar cómo podemos reemplazar una de las restricciones lineales con una no-lineal de restricción, mediante el relleno de las restricciones lineales en la no-restricciones lineales. E. g cuando se sustituye $a=d$ $b=-c$ en los no-lineal de la forma$a^2+b^2=1$, entonces usted puede hacer otra relación $ad-bc=1$. Y cuando usted multiplica $a=d$$c=-b$, entonces usted consigue $ac=-bd$.

7voto

jldugger Puntos 7490

Tal vez por la simplificación de la notación que puede llevar a cabo las ideas esenciales. Resulta que no necesitamos involucrar a las expectativas o complicadas fórmulas, porque todo lo que es puramente algebraico.


La expresión algebraica de la naturaleza de los objetos matemáticos

La pregunta se refiere a las relaciones entre (1) la matriz de covarianza de un conjunto finito de variables aleatorias $X_1, \ldots, X_n$ y (2) lineal de las relaciones entre esas variables, consideradas como vectores.

El espacio vectorial en cuestión es el conjunto de todos finito de varianza de las variables aleatorias (en cualquier espacio de probabilidad $(\Omega,\mathbb P)$) modulo el subespacio de casi seguramente variables constantes, denotado $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R.$ (es decir, se consideran dos variables aleatorias $X$ $Y$ a ser el mismo vector cuando no existe la posibilidad de que $X-Y$ diferencia de sus expectativas.) Estamos tratando sólo con el finito-dimensional espacio vectorial $V$ generado por el $X_i,$ que es lo que hace de esta una expresión algebraica problema en lugar de una analítica.

Lo que necesita saber acerca de las desviaciones

$V$ es más que un espacio vectorial: es una cuadrático módulo, ya que viene equipado con la varianza. Todo lo que necesitamos saber acerca de las varianzas de dos cosas:

  1. La varianza es una función con valores escalares $Q$ con la propiedad de que $Q(aX)=a^2Q(X)$ para todos los vectores $X.$

  2. La varianza es no degenerada.

El segundo necesita alguna explicación. $Q$ determina un "producto escalar", que es una bilineal simétrica forma dada por la

$$X\cdot Y = \frac{1}{4}\left(Q(X+Y) - Q(X-Y)\right).$$

(Esto por supuesto no es nada distinto de la covarianza de las variables$X$$Y.$) Vectores $X$ $Y$ son ortogonales cuando su producto escalar es $0.$ El complemento ortogonal de cualquier conjunto de vectores $\mathcal A \subset V$ consta de todos los vectores ortogonales a cada elemento de a $\mathcal A,$ escrito

$$\mathcal{A}^0 = \{v\in V\mid a . v = 0\text{ for all }v \in V\}.$$

Claramente, es un espacio vectorial. Cuando $V^0 = \{0\}$, $Q$ es no degenerada.

Me permite demostrar que la varianza es, de hecho, no degenerada, aunque pueda parecer obvio. Supongamos $X$ es un elemento distinto de cero de a $V^0.$ Esto significa $X\cdot Y = 0$ todos los $Y\in V;$, equivalentemente,

$$Q(X+Y) = Q(X-Y)$$

para todos los vectores $Y.$ de los que tomaron $Y=X$ da

$$4 Q(X) = Q(2X) = Q(X+X) = Q(X-X) = Q(0) = 0$$

y por lo tanto $Q(X)=0.$ sin Embargo, sabemos (usando la Desigualdad de Chebyshev, tal vez) que las únicas variables aleatorias con cero varianza son casi seguramente constante, que se identifica con el vector cero en $V,$ QED.

La interpretación de las preguntas

Volviendo a la pregunta, en la parte anterior de la notación de la matriz de covarianza de las variables aleatorias es simplemente una matriz regular de todos sus productos de puntos,

$$T = (X_i\cdot X_j).$$

Hay una buena manera de pensar acerca de la $T$: define una transformación lineal en $\mathbb{R}^n$ en la forma habitual, mediante el envío de cualquier vector $x=(x_1, \ldots, x_n)\in\mathbb{R}^n$ en el vector $T(x)=y=(y_1, \ldots, x_n)$ cuyas $i^\text{th}$ componente está dado por la regla de la multiplicación de la matriz

$$y_i = \sum_{j=1}^n (X_i\cdot X_j)x_j.$$

El núcleo de esta transformación lineal es el subespacio envía a cero:

$$\operatorname{Ker}(T) = \{x\in \mathbb{R}^n\mid T(x)=0\}.$$

La ecuación anterior implica que, al $x\in \operatorname{Ker}(T),$ por cada $i$

$$0 = y_i = \sum_{j=1}^n (X_i\cdot X_j)x_j = X_i \cdot \left(\sum_j x_j X_j\right).$$

Como esto es cierto para todos los $i,$ se mantiene para todos los vectores que se extendió por el $X_i$: es decir, $V$ sí. En consecuencia, cuando se $x\in\operatorname{Ker}(T),$ el vector dado por $\sum_j x_j X_j$ se encuentra en $V^0.$ Debido a que la varianza es no degenerada, esto significa $\sum_j x_j X_j = 0.$, $x$ describe una dependencia lineal entre la $n$ original de variables aleatorias.

Usted puede fácilmente comprobar que esta cadena de razonamiento es reversible:

Lineal de las dependencias entre las $X_j$ como vectores están en una correspondencia uno a uno con los elementos del núcleo de $T.$

(Recuerde que esta declaración todavía considera el $X_j$ como se define a un constante cambio en la ubicación, es decir, como elementos de $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R$ - en lugar de simplemente como variables aleatorias.)

Finalmente, por definición, un autovalor de a $T$ es cualquier escalar $\lambda$ para el cual existe un vector distinto de cero $x$ $T(x) = \lambda x.$ Al $\lambda=0$ es un valor propio, el espacio de vectores propios asociados es (obviamente) el núcleo de $T.$


Resumen

Hemos llegado a la respuesta a las preguntas: el conjunto de los lineales de las dependencias de las variables aleatorias, qua elementos de $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R,$ corresponde uno a uno con el núcleo de su matriz de covarianza $T.$ Esto es así porque la varianza es una degenerada de una forma cuadrática. El núcleo también es el subespacio propio asociado con el autovalor cero (o simplemente el subespacio cero cuando no hay autovalor cero).


Referencia

Me han adoptado la notación y algo de la lengua del Capítulo IV en

Jean-Pierre Serre, Un Curso De Aritmética. Springer-Verlag, 1973.

4voto

Josh Peterson Puntos 108

Supongamos $C$ tiene un autovector $v$, con la correspondiente autovalor $0$,$\operatorname{var}(v^T X) = v^T Cv = 0$. Por lo tanto, por la desigualdad de Chebyshev, $v^TX$ es casi seguramente constante e igual a $v^T E [X]$. Es decir, cada autovalor cero corresponde a una restricción lineal, es decir,$v^T X = v^T E[X]$. No hay necesidad de considerar cualquier caso especial.

Por lo tanto, llegamos a la conclusión de:

"son restricciones lineales la única manera de inducir a cero autovalores [?]"

Sí.

"puede que no restricciones lineales en las variables aleatorias, también, generar cero valores propios de C ?"

Sí, si que implican restricciones lineales.

3voto

Hasse1987 Puntos 11

La covarianza marix$C$ of$X$ es simétrica para que pueda diagnosticarla como$C=Q\Lambda Q^T$, con los valores propios en la matriz diagonal$\Lambda.$ Reescribiendo esto como$\Lambda=Q^TCQ$, rhs es la matriz de covarianza de$Q^TX$, por lo que los valores propios cero en lhs corresponden a combinaciones lineales de$X$ con distribuciones degeneradas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X