3 votos

¿Planificar el resultado de la Asignación de Dirichlet Latente utilizando t-SNE?

He encontrado este blog donde el autor entrena un modelo de Asignación de Dirichlet Latente (LDA) en 20 grupos de noticias. El resultado es un $N\times K$ matriz donde $N$ es el número de artículos (por fila) y $K$ es el número de temas (por columnas), es decir, cada fila es una distribución discreta de temas.

A continuación, el autor utiliza t-SNE para reducir la dimensionalidad de la matriz de $K$ a 2 dimensiones para poder visualizar las agrupaciones de documentos por temas. Las agrupaciones de documentos del resultado de t-SNE parecen incluso tener sentido.

Mi pregunta es, ¿es razonable hacer esto? LDA produce una distribución discreta sobre los temas para cada documento. t-SNE reduce la dimensionalidad de los vectores / puntos en un espacio de alta dimensión para visualizar la estructura local. Como la salida de LDA es una distribución, pensé que sería de alguna manera incorrecto hacer esto? Entiendo que la distribución, al ser discreta, puede pensarse como un punto en el $K$ espacio dimensional. Pero el uso de t-SNE para visualizar una salida discreta parece de alguna manera incorrecto. ¿Me estoy perdiendo algo?

EDIT: La métrica que el autor utiliza en t-SNE es la distancia euclidiana - por eso estoy confundido, porque el autor está utilizando la distancia euclidiana para comparar distribuciones.

1voto

Ger Puntos 1698

Creo que el enfoque descrito en la entrada del blog es razonable. El objetivo de t-SNE es encontrar una representación de la entrada en un espacio de baja dimensión de manera que los puntos similares en el espacio original sean también similares en el espacio de representación. En la entrada del blog, las entradas son las probabilidades de los temas de cada documento. Así que los documentos con baja distancia euclidiana entre las probabilidades de los temas deberían tener representaciones t-SNE similares.

Entonces, ¿qué mide la distancia euclidiana entre las probabilidades de los temas? Digamos que tenemos las probabilidades temáticas de dos documentos $$ p = (p_1, ..., p_K),$$ $$ q = (q_1, ..., q_K).$$ Si la distancia entre $p$ y $q$ es $0$ entonces los documentos tienen exactamente la misma distribución de temas. Si la distancia entre $p$ y $q$ aumenta, las distribuciones temáticas se separan más. El caso extremo es cuando $p$ y $q$ son de la forma (0,...,0,1,0,...,0), y $1$ se produce en una coordenada diferente, por lo que los documentos tienen temas completamente diferentes. Entonces la distancia es máxima e igual a $1$ . Por lo tanto, la distancia entre las coordenadas t-SNE debe representar la similitud de los temas de dos documentos.

Existen otras medidas de distancia entre distribuciones discretas (por ejemplo Jensen-Shannon ). Sin embargo, la distancia euclidiana es sencilla y funcionó en ese caso concreto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X