10 votos

Modelos probabilísticos para mínimos cuadrados parciales, rango reducido de regresión y el análisis de correlación canónica?

Esta pregunta los resultados de la discusión que siguió a la pregunta anterior: ¿Cuál es la relación entre los cuadrados mínimos parciales, rango reducido de regresión, y el principal componente de regresión?

Para el análisis de componentes principales, usado comúnmente como modelo probabilístico es $$\mathbf x = \sqrt{\lambda} \mathbf{w} z + \boldsymbol \epsilon \in \mathbb R^p,$$ where $z\sim \mathcal N(0,1)$, $\mathbf{w}\in S^{p-1}$, $\lambda > 0$, and $\boldsymbol\epsilon \sim \mathcal N(0,\mathbf{I}_p)$. Then the population covariance of $\mathbf{x}$ is $\lambda \mathbf{w}\mathbf{w}^T + \mathbf{I}_p$, i.e., $$\mathbf{x}\sim \mathcal N(0,\lambda \mathbf{w}\mathbf{w}^T + \mathbf{I}_p).$$ The goal is to estimate $\mathbf{w}$. This is known as the spiked covariance model, which is frequently used in the PCA literature. The problem of estimating the true $\mathbf{w}$ can be solved by maximizing $\operatorname{Var} (\mathbf{Xw})$ over $\mathbf{w}$ en la unidad de la esfera.

Como se señaló en la respuesta a la pregunta anterior por @ameba, rango reducido de regresión de mínimos cuadrados parciales, y el análisis de correlación canónica estrechamente relacionadas con las formulaciones,

\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}),\\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}),\\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv}),\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}). \end{align}

La pregunta es, ¿cuáles son los modelos probabilísticos detrás de RRR, PLS, y CCA? En particular, estoy pensando en $$(\mathbf{x}^T, \mathbf{y}^T)^T \sim \mathcal N(0, \mathbf{\Sigma}).$$ How does $\mathbf{\Sigma}$ depend on $\mathbf{w}$ and $\mathbf{v}$ en RRR, PLS, y CCA? Por otra parte, existe un sistema unificado de modelo probabilístico (como la punta de la covarianza del modelo para PCA) para ellos?

6voto

zowens Puntos 1417

Probabilística en el análisis de correlación canónica (probabilística de la CCA, PCCA) fue introducido en Bach & Jordan, 2005, Probabilística Interpretación de El Análisis de Correlación canónica, varios años después de Inflexión Y el Obispo presentó su probabilístico análisis de componentes principales (probabilístico de la PCA, PPCA).

Muy brevemente, se basa en el siguiente modelo probabilístico:

\begin{align} \newcommand{\z}{\mathbf z} \newcommand{\x}{\mathbf x} \newcommand{\y}{\mathbf y} \newcommand{\m}{\boldsymbol \mu} \newcommand{\P}{\boldsymbol \Psi} \newcommand{\S}{\boldsymbol \Sigma} \newcommand{\W}{\mathbf W} \newcommand{\I}{\mathbf I} \newcommand{\w}{\mathbf w} \newcommand{\u}{\mathbf u} \newcommand{\0}{\mathbf 0} \z &\sim \mathcal N(\0,\I) \\ \x|\z &\sim \mathcal N(\W_x \z + \boldsymbol \m_x, \P_x)\\ \y|\z &\sim \mathcal N(\W_y \z + \boldsymbol \m_y, \P_y) \end{align}

Aquí el ruido de covarianzas $\P_x$ $\P_y$ son arbitrarias completo rango de matrices simétricas.

PCCA graphical model

Si tenemos en cuenta 1-dimensional de variables latentes $z$, suponga que todos los medios son cero $\m_x=\m_y=0$, y combinar $\x$ $\y$ en un vector, entonces tenemos:

$$\begin{pmatrix} \x\\ \y\end{pmatrix}\sim\mathcal N (\0,\S),\quad\quad\quad\S=\begin{pmatrix}\w_x\w_x^\top+\P_x & \w_x\w_y^\top \\ \w_y\w_x^\top & \w_y\w_y^\top+\P_y\end{pmatrix}.$$

Bach & Jordan demostrado que esto es equivalente a la norma de la CCA. Específicamente, el de máxima verosimilitud (ML) solución está dada por $$\w_i = \S_i\u_i m_i,$$ where $\S_i$ are sample covariance matrices of both datasets, $\u_i$ is the first canonical pair of axes, and $m_x m_y = \rho_1$ are arbitrary numbers (both between $0$ and $1$) dando a la primera correlación canónica como un producto.

Como se puede ver, $\w_i$ no son directamente proporcional a la CCA ejes, pero son impartidas por algunos de transformación de aquellos. Ver Bach Y Jordania, para más detalles.


No tengo un buen alcance intuitivo de PCCA. Como se puede ver, la cruz-matriz de covarianza entre los $X$ $Y$ es modelada por $\w_x \w_y^\top$, por lo que uno podría esperar ingenuamente $\w_i$ más de rendimiento de los PLS de los ejes. El ML de la solución es, sin embargo, relativa a la CCA ejes. Probablemente es de alguna manera debido a que el bloque-diagonal de la estructura de $\P=\begin{pmatrix}\P_x & \0\\ \0 & \P_y\end{pmatrix}$.

Yo no soy consciente de que cualquier similar probabilístico versiones de RRR o PLS, y no han podido venir con el mismo. Tenga en cuenta que si $\P$ es diagonal, entonces obtendremos la FA en una combinación de las $X+Y$ conjunto de datos, y si es diagonal y isotrópica, a continuación, obtenemos PPCA en el conjunto de datos combinados. Así que hay una progresión de la CCA para la FA a PPCA, como $\P$ vuelve más y más limitados. No veo qué otras opciones de $\P$ puede ser razonable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X