6 votos

¿Por qué usar la perplejidad en lugar del partido vecino más cercano en t-SNE?

Estoy tratando de trabajar a través de Van der Maaten y Hinton del papel de t-ENCS (que fue inspirado por Hinton y Roweis' ENCS) y estoy teniendo problemas para entender por qué usan una perplejidad parámetro.

En la t-SNE estudio, los autores sugieren que "La perplejidad que puede ser interpretado como una suave medida del número efectivo de los vecinos". Es claro para mí por qué necesitan para establecer $\sigma_i$ a valores diferentes para cada i, pero, ¿por qué complicar las cosas con la complejidad? Es más fácil de entender y tan rápido para hacer una búsqueda binaria para un $\sigma_i$ que se traduce en k (especificado por el usuario) a los vecinos dentro de dos desviaciones estándar de lo que quiero.

He probado este pensamiento en un caso simple, 100 muestras de una Gaussiana de la Mezcla de 3 dimensiones, utilizando un Perplejidad de 20 en un caso y k=6 vecinos más cercanos en el segundo caso. En este caso hay una cerca-relación lineal entre el $\sigma_i$ generado por cada método, como se muestra a continuación:

enter image description here

Tal vez mi ejemplo simplemente no era lo suficientemente compleja? O tal vez el uso de la Perplejidad que transmite cierta información adicional como log_2(entropía) que yo no tengo la intuición?

Cualquier visión se agradece

[editar]

En respuesta a @geomatt comentario, tengo ejecutar de nuevo pero redujo la dimensión de a dos para ser capaces de visualizar. Esto muestra la ubicación de los puntos de (x1,x2) de espacio con el resultado de la sigma valores en negro (k-nn) y rojo (perplejidad). Aparte de la constante de múltiples yo todavía no notar una gran diferencia

enter image description here

3voto

richcollins Puntos 514

"La perplejidad que puede ser interpretado como una suave medida del número efectivo de vecinos" podría ser interpretada como $\frac{\delta \sigma_i}{\delta P}$ siendo suave. Es decir, variando la Perplejidad que tiene un efecto en la $\sigma_i$ fijo i, que es continua en todos los derivados.

Este no es el caso de la k-NN enfoque. Uno puede imaginar la fijación de un yo que se encuentra dentro de un clúster que contiene G puntos. variación de k a partir de 2 ... G-1 debe resultar en similar pero monótonamente crecientes valores de $\sigma_i$. Hay un salto en k=G como el valor de $\sigma$ debe ser lo suficientemente grande como para llegar fuera del clúster. La distancia entre el grupo y el punto más cercano determina el tamaño de este salto.

A continuación es un (no tan extrema) ejemplo de esto. He simulado 100 puntos de una Gaussiana Mezcla con dos Gaussianas de igual probabilidad. Los datos no estaba muy linealmente separables. Elegí un punto, yo, al azar y variada Perplejidad y k. Nota el cambio repentino en la primera derivada de la k-nn enfoque que cerca de 50 (el número esperado de puntos que caen dentro de un determinado cluster).

enter image description here

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X