4 votos

Análisis de componentes principales - el cálculo de la varianza

Citando de Rahul respuesta:

No es difícil mostrar que si la matriz de covarianza de la original los datos de los puntos de $x_i$$\Sigma$, la varianza de los nuevos puntos de datos es sólo $u^{T}\Sigma u$.

La covarianza entre los conjuntos de $X$ $Y$ se define como $\sum_i = \frac{1}{n}(x_i-\bar{x})(y_i-\bar{y})$ donde $\bar{x}$ $\bar{y}$ el valor de la media.

En algún otro material que he encontrado dice algo distinto de lo que he citado: Aquí, la varianza no es igual a $u^{T}\Sigma u$. Sería si $A$ en este caso se multiplica por $\frac{1}{n}$. Dicen $A$ sería una matriz de covarianza si el coeficiente estaba presente. Pero no lo es. Se ve 'un poco' incompatible con la declaración de la cita.

La pregunta es quién está equivocado aquí y ¿cuál es la varianza igual a? Supongo que Rahul es correcto decir que la varianza es igual a $u^{T}\Sigma u$ donde $\Sigma$ es la matriz de covarianza. Pero la imagen de abajo demuestra una diferente de la igualdad, entonces, ¿qué está pasando aquí?

Aquí en la página 8, el autor deriva la igualdad de apoyo de Rahul reclamación (no acabo de entender lo que está pasando allí). Cuál es la correcta?

enter image description hereFuente

1voto

Christoph Puntos 8263

Deje $x_1,\dots,x_n\in\mathbb R^d$ el conjunto de puntos de la muestra que usted está tratando. Proyectando un vector unitario $v\in\mathbb R^d$ obtener las muestras de $z_i := x_i^Tv\in\mathbb R$$i=1,\dots,n$. La media de la muestra de esta lista de números es $$ \overline z = \frac{1}{n} \sum_i z_i = \frac{1}{n} \sum_i x_i^T v = \left(\frac{1}{n} \sum_i x_i^T\right) v = \overline x^Tv, $$ donde $\overline x = \frac{1}{n} \sum_i x_i$ es la media de la muestra de la no proyectados de datos. Ahora la varianza de la muestra de los datos proyectados es, por definición, \begin{align*} \sigma_z^2 &= \frac{1}{n} \sum_i \left(z_i-\overline z\right)^2 \\ &= \frac{1}{n} \sum_i \left(x_i^Tv-\overline x^Tv\right)^2 \\ &= \frac{1}{n} \sum_i \left(\left(x_i-\overline x\right)^Tv\right)^2. \end{align*}

Tenga en cuenta que lo que se llama "$var(\mathbf v)$" en la presentación que adjunto es no la varianza de la muestra $\sigma_z^2$, ya que el factor de $\frac{1}{n}$ falta.

Por lo tanto, las dos instrucciones no están en conflicto.

Podemos seguir y obtener el resultado Rahul se sugiere: \begin{align*} \sigma_z^2 &= \frac{1}{n} \sum_i \left(\left(x_i-\overline x\right)^Tv\right)^2 \\ &= \frac{1}{n} \sum_i \left(x_i-\overline x\right)^Tv \left(x_i-\overline x\right)^Tv \\ &= \frac{1}{n} \sum_i v^T \left(x_i-\overline x\right) \left(x_i-\overline x\right)^Tv \\ &= v^T \left(\frac{1}{n} \sum_i \left(x_i-\overline x\right) \left(x_i-\overline x\right)^T \right) v = v^T \Sigma_x v, \end{align*} donde $$\Sigma_x = \frac{1}{n} \sum_i \left(x_i-\overline x\right) \left(x_i-\overline x\right)^T$$ es la muestra de la matriz de covarianza de los no proyectados de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X