6 votos

Probabilidades de similitud en SNE frente a t-SNE

En el documento original de tSNE (van der Maaten y Hinton 2008, Visualizing Data using t-SNE) las probabilidades de similitud para la incrustación estocástica de vecinos (SNE) se definen en la sección 2 como

$$p_{j|i} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma_{i}^{2})}{\sum_{k \neq i}{\exp(-||x_{i} - x_{k}||/2\sigma_{i}^{2})}}$$

y las probabilidades para la incrustación estocástica de vecinos distribuida en t (t-SNE) se definen en la sección 3 como

$$p_{ij} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma^{2})}{\sum_{k \neq l}{\exp(-||x_{k} - x_{l}||/2\sigma^{2})}}.$$

Según mi entendimiento previo original, el SNE y el tSNE sólo difieren en la fórmula de $q_{ij}$ : SNE utiliza Gaussian para $q_{ij}$ y tSNE utiliza la distribución t de Student. Pero las dos fórmulas anteriores también son diferentes; ¿por qué?

Mis preguntas se refieren a la segunda fórmula: de donde $k$ y $l$ ¿los iteradores provienen de? Y es que $\sigma$ es $\sigma_{i}$ ¿o no? Iteradores $k$ y $l$ para el $q_{ij}$ también me confunden.

2voto

sherri Puntos 21

Creo que el documento define la distribución conjunta (¡no la distribución condicional!) como

$$p_{ij} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma^{2})}{\sum_{k \neq l}{\exp(-||x_{k} - x_{l}||/2\sigma^{2})}},$$

pero no lo utilizan y en su lugar definir $$p_{ij}=\frac{p_{j|i}+p_{i|j}}{2}.$$

Como se menciona en el documento, el SNE original y el tSNE difieren en dos aspectos:

La función de coste utilizada por el t-SNE difiere de la utilizada por el SNE en dos aspectos: (1) utiliza una versión simetrizada de la función de coste del SNE con gradientes más sencillos que fue introducida brevemente por Cook et al. (2007) y (2) utiliza una distribución Student-t en lugar de una gaussiana para calcular la similitud entre dos puntos en el espacio de baja dimensión. t-SNE emplea una distribución de cola pesada en el espacio de baja dimensión para aliviar tanto el problema de aglomeración como los problemas de optimización de la SNE.

Actualización basada en la edición de la pregunta : El denominador en ambos casos es sólo la normalización para asegurar que la suma sobre i(p(j/i) y la suma sobre i&j(p(i,j) sumen 1, el requisito básico para que ambas sean distribuciones.

Además, como aquí hay una gaussiana, tomamos sigma como su desviación estándar. En el primer caso había i gaussianas, y podríamos haber tomado una desviación estándar común, pero en su lugar elegimos hacer que sigma dependa de la densidad de vecinos alrededor de un punto. Si un punto tiene un gran número de vecinos a su alrededor dentro de la distancia x, la distribución condicional debería caer más rápido, en comparación con la distribución condicional para los puntos en regiones más dispersas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X