38 votos

Explicación intuitiva del funcionamiento del UMAP, en comparación con el t-SNE

Tengo un doctorado en biología molecular. Recientemente, mis estudios han comenzado a incluir el análisis de datos de alta dimensión. Me hice a la idea de cómo funciona el t-SNE (gracias a un Vídeo de StatQuest en YouTube ), pero no puedo comprender UMAP (He escuchado el Charla del creador de la UMAP en línea, pero no me resultó fácil de entender). Volví a papel original describiéndola, pero eran demasiadas matemáticas para mí.

¿Puede alguien arrojar algo de luz sobre la cuestión? Estoy buscando una explicación intuitiva, similar a la del vídeo de StatQuest enlazado anteriormente.

33voto

zowens Puntos 1417

Usted dijo que su comprensión de t-SNE se basa en https://www.youtube.com/watch?v=NEaUSP4YerM y usted busca una explicación de la UMAP en un nivel similar.

He visto este vídeo y es bastante acertado en lo que dice (tengo algunas pequeñas pegas, pero en general está bien). Lo más curioso es que casi se aplica a la UMAP tal y como es. Aquí hay cosas que sí no aplicar:

  1. Las similitudes se calculan a partir de las distancias utilizando un núcleo diferente; no es gaussiano, pero también decae exponencialmente y también tiene una anchura adaptable, como en t-SNE.
  2. Las similitudes no se normalizan para que sumen 1, sino que acaban siendo normalizadas para que sumen un valor constante.
  3. Las similitudes se simetrizan, pero no sólo por la media.
  4. El núcleo de similitud en el espacio de incrustación no es exactamente el núcleo de distribución t, sino un núcleo muy muy similar.

Creo que todas estas diferencias no son muy importantes ni tienen mucha importancia. Lo realmente importante es la parte en la que en el vídeo el narrador dice (10m40s):

Queremos hacer este fila parecen este fila [...]

En el vídeo no se explica cómo el t-SNE cuantifica si son similares o no y cómo pasa a conseguir que se parezcan. Ambas partes son diferentes en UMAP. Pero la afirmación citada puede aplicarse también a UMAP.


Por la forma en que está escrito el documento UMAP, las similitudes computacionales con t-SNE no son muy evidentes. Desplácese hasta el Apéndice C en https://arxiv.org/pdf/1802.03426.pdf y/o mira aquí https://jlmelville.github.io/uwot/umap-for-tsne.html si quiere ver una comparación de los cálculos que enumero arriba y las funciones de pérdida de t-SNE y UMAP.

26voto

Dhananjay Puntos 11

La principal diferencia entre t-SNE y UMAP es la interpretación de la distancia entre objetos o "clusters". Utilizo las comillas porque ambos algoritmos no están pensados para el clustering - están pensados sobre todo para la visualización.

t-SNE preserva la estructura local de los datos.

UMAP afirma que preserva tanto la estructura local como la mayor parte de la estructura global de los datos.

Esto significa que con t-SNE no se puede interpretar la distancia entre los clústeres A y B en diferentes extremos de su parcela. No puede inferir que estos clusters son más disímiles que A y C, donde C está más cerca de A en el gráfico. Pero dentro del cluster A, se puede decir que los puntos cercanos entre sí son objetos más similares que los puntos en diferentes extremos de la imagen del cluster.

Con UMAP, debería ser capaz de interpretar tanto las distancias entre / posiciones de los puntos como los clusters.

Ambos algoritmos son muy estocásticos y dependen en gran medida de la elección de los hiperparámetros (el t-SNE incluso más que el UMAP) y pueden producir resultados muy diferentes en distintas ejecuciones, por lo que su gráfico podría ocultar una información en los datos que una ejecución posterior podría revelar.

Por otro lado, el viejo PCA es determinista y fácilmente comprensible con conocimientos básicos de álgebra lineal (multiplicación de matrices y problemas propios), pero es sólo una reducción lineal en contraste con las reducciones no lineales de t-SNE y UMAP.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X