En el documento original de tSNE (van der Maaten y Hinton 2008, Visualizing Data using t-SNE) las probabilidades de similitud para la incrustación estocástica de vecinos (SNE) se definen en la sección 2 como
$$p_{j|i} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma_{i}^{2})}{\sum_{k \neq i}{\exp(-||x_{i} - x_{k}||/2\sigma_{i}^{2})}}$$
y las probabilidades para la incrustación estocástica de vecinos distribuida en t (t-SNE) se definen en la sección 3 como
$$p_{ij} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma^{2})}{\sum_{k \neq l}{\exp(-||x_{k} - x_{l}||/2\sigma^{2})}}.$$
Según mi entendimiento previo original, el SNE y el tSNE sólo difieren en la fórmula de $q_{ij}$ : SNE utiliza Gaussian para $q_{ij}$ y tSNE utiliza la distribución t de Student. Pero las dos fórmulas anteriores también son diferentes; ¿por qué?
Mis preguntas se refieren a la segunda fórmula: de donde $k$ y $l$ ¿los iteradores provienen de? Y es que $\sigma$ es $\sigma_{i}$ ¿o no? Iteradores $k$ y $l$ para el $q_{ij}$ también me confunden.