En esta charla http://videolectures.net/lms08_hardoon_scca/ (4:58) David dice que maximiza la correlación entre los vectores pueden ser vistos como minimizar el ángulo entre ellos, y le da dos referencias: Breiman & Friedman, 1985, y Hastie & Tibshirani 1990. El segundo de estos es sólo el libro de texto, y la primera no la puedo encontrar, a pesar de que había un papel en esa época acerca de los Modelos Aditivos Generalizados. Básicamente no puedo encontrar donde discutir esto. Es la afirmación verdadera? ¿Alguien tiene una referencia definitiva?
Respuestas
¿Demasiados anuncios?A menudo es útil para geométricamente representan variables aleatorias $X_{1}, \ldots, X_{p}$ (teórica o empírica de datos) como vectores $\bf{x}_{1}, \ldots, \bf{x}_{p}$ de manera tal que sus desviaciones estándar $\sigma(X_{i})$ igualdad de sus longitudes $||\bf{x}_{i}||$, y sus correlaciones $\rho(X_{i}, X_{j})$ igual al coseno de los ángulos $\angle(\bf{x}_{i}, \bf{x}_{j})$. Entonces, uno puede usar ilustraciones gráficas y geométricas intuiciones para obtener estadísticas de conocimiento.
Para este fin, vamos a $\bf{\Sigma}$ $(p \times p)$- matriz de covarianza de $X_{1}, \ldots, X_{p}$ con rango de $k$. Desde $\bf{\Sigma}$ es positivo semidefinite, podemos encontrar una descomposición $\bf{\Sigma} = \bf{B} \bf{B}'$ mediante la definición de la $(p \times k)$-matriz $\bf{B} := \bf{G} \bf{D}^{1/2}$ donde $\bf{G}$ $(p \times k)$- matriz de vectores propios de a $\bf{\Sigma}$ $\bf{D}$ $(k \times k)$- diagonal de la matriz de los correspondientes autovalores positivos.
$\bf{B} \bf{B}'$ es la matriz de punto productos de las filas de $\bf{B}$, es decir, $\bf{\Sigma}_{ij} = \langle\bf{B}_{i}, \bf{B}_{j}\rangle = \bf{B}_{i}'\bf{B}_{j}$. Ahora tenemos la representación deseada en $k$espacio tridimensional mediante la definición de $\bf{x}_{i} := \bf{B}_{i}$, porque entonces tenemos $$ ||\bf{x}_{i}|| = \sqrt{\langle\bf{x}_{i}, \bf{x}_{i}\rangle} = \sqrt{\bf{\Sigma}_{ii}} = \sigma(X_{i}) $$
Y también tenemos (asumiendo $||\bf{x}_{i}|| > 0$$||\bf{x}_{j}|| > 0$) $$ \begin{array}{rcl} \cos(\angle(\bf{x}_{i}, \bf{x}_{j})) &=& \frac{\langle\bf{x}_{i}, \bf{x}_{j}\rangle}{||\bf{x}_{i}|| \cdot ||\bf{x}_{j}||} = \frac{\langle\bf{x}_{i}, \bf{x}_{j}\rangle}{\sqrt{\langle\bf{x}_{i}, \bf{x}_{i}\rangle} \cdot \sqrt{\langle\bf{x}_{j}, \bf{x}_{j}\rangle}}\\ &=& \frac{\bf{\Sigma}_{r} \bf{x}_{ir} \bf{x}_{jr}}{\sqrt{\bf{\Sigma}_{r} \bf{x}_{ir}^{2}} \, \sqrt{\bf{\Sigma}_{r} \bf{x}_{jr}^{2}}} = \frac{Cov(X_{i}, X_{j})}{\sigma(X_{i}) \, \sigma(X_{j})}\\ &=& \rho(X_{i}, X_{j}) \end{array} $$
Desde $\cos(0) = 1$, lo que maximiza la correlación entre las variables puede ser visto como minimizar el ángulo entre sus correspondientes vectores.
Si tenemos datos empíricos $n$-vectores $\bf{x}_{i}$, con una media de vectores $\bar{\bf{x}}_{i}$, entonces la representación sigue inmediatamente a la correspondiente centrado en las variables de $\dot{\bf{x}}_{i}$ desde $\langle\dot{\bf{x}}_{i}, \dot{\bf{x}}_{j}\rangle = \sum\limits_{r=1}^{n}(\bf{x}_{ir} - \bar{\bf{x}}_{i})(\bf{x}_{jr} - \bar{\bf{x}}_{j}) = n \, Cov(X_{i}, X_{j})$.
Así que en este caso, $\dot{\bf{x}}_{i} / \sqrt{n}$ ya es la representación deseada - aunque en $n$-dimensiones del espacio, mientras que sólo necesitamos $k \leqslant n$ dimensiones en general.
Para aplicaciones, ver, por ejemplo, esta respuesta o esta respuesta.
Puesto que usted pida una referencia, Estadísticas métodos: el enfoque geométrico explica esta y muchas otras propiedades de visualización en el espacio geométrico. Para los propósitos de enseñanza, también puede ser útil porque permite explicar conceptos profundos a la gente con una débil de fondo en el cálculo.
@caracal la respuesta es muy completo. Todo lo que puedo agregar un poco de fondo. Formalmente, los ángulos y las normas (distancias) se define a partir de un producto escalar. Así que todo lo que necesita es un producto escalar $\langle x ; y \rangle$.
- La norma de un vector $x$ se define como $\|x\|^2 = \langle x ; x \rangle$.
- El ángulo de $\theta$ $x$ $y$ es tal que $\cos \theta = \frac{\langle x ; y \rangle}{\|x\| \cdot \|y\|}$.
¿Qué es un producto escalar? Por definición, es una función que
- es lineal y simétrica en ambos de sus argumentos,
- tal que $\langle x ; x \rangle \geq 0$,
- y de tal manera que $\langle x ; x \rangle = 0$ si y sólo si $x = 0$.
Podemos comprobar fácilmente que la covarianza es un producto escalar.
- $Cov(X + \lambda \cdot Y ; Z) = Cov(X ; Z) + \lambda \cdot Cov(Y ; Z)$, e $Cov(X;Z) = Cov(Z;X)$,
- $Cov(X ; X) = Var(X) \geq 0$,
- ... pero no tenemos $Var(X) = 0 \iff X = 0$.
En realidad, una variable aleatoria tiene cero si la varianza es igual a una constante $a$. La dificultad es abordado por la re-definir el espacio vectorial como variables aleatorias, hasta una constante aditiva (se dice que dos variables aleatorias son los mismos, si difieren por una constante). Con esta nueva definición, tenemos un producto escalar y podemos interpretar el coeficiente de correlación (segunda viñeta anterior) como el coseno entre dos variables aleatorias. Es entonces obvio que la maximización de la correlación es como minimizar el ángulo.
Todo esto viene a partir de las propiedades de los vectores en el espacio, que la captura de las características esenciales de la geometría en fórmulas simples.