45 votos

¿Por qué no se utiliza t-SNE como técnica de reducción de la dimensionalidad para la agrupación o la clasificación?

En una tarea reciente, se nos pidió que utilizáramos el PCA en los dígitos del MNIST para reducir las dimensiones de 64 (imágenes de 8 x 8) a 2. A continuación, tuvimos que agrupar los dígitos utilizando un modelo de mezcla gaussiana. El PCA que utiliza sólo 2 componentes principales no produce clusters distintos y, como resultado, el modelo no es capaz de producir agrupaciones útiles.

Sin embargo, utilizando t-SNE con 2 componentes, los clusters se separan mucho mejor. El modelo de mezcla gaussiana produce clústeres más diferenciados cuando se aplica a los componentes de t-SNE.

La diferencia entre PCA con 2 componentes y t-SNE con 2 componentes puede verse en el siguiente par de imágenes en las que se han aplicado las transformaciones al conjunto de datos MNIST.

PCA on MNIST

t-SNE on MNIST

He leído que el t-SNE sólo se utiliza para la visualización de datos de alta dimensión, como en esta respuesta Sin embargo, teniendo en cuenta los distintos conglomerados que produce, ¿por qué no se utiliza como técnica de reducción de la dimensionalidad que luego se emplea para los modelos de clasificación o como método de agrupación independiente?

2 votos

¿Se refiere a la clasificación o a la agrupación? El título dice clustering pero el post dice clasificación.

0 votos

Lo siento. Quiero saber por qué no se utiliza como técnica de clustering o como técnica de reducción de la dimensionalidad para la clasificación. He editado para reflejar esto.

0 votos

Casualmente, un documento publicado recientemente utiliza t-SNE y un algoritmo de agrupación no supervisado para etiquetar los procesos de combustión.

43voto

usεr11852 Puntos 5514

La principal razón por la que $t$ -SNE no se utiliza en los modelos de clasificación es que no aprender una función del espacio original al nuevo espacio (de menor dimensión). Por lo tanto, cuando tratemos de utilizar nuestro clasificador en datos nuevos o no vistos, no podremos mapear o preprocesar estos nuevos datos de acuerdo con los datos anteriores. $t$ -Resultados del SNE.

Se está trabajando en el entrenamiento de una red neuronal profunda para aproximar $t$ -SNE resultados (por ejemplo, el "paramétrico" $t$ -SNE papel) pero este trabajo ha sido sustituido en parte por la existencia de (profunda) autoencoders . Los autocodificadores están empezando a utilizarse como entrada/preprocesadores de los clasificadores (especialmente de las DNN) precisamente porque obtienen muy buenos resultados en el entrenamiento, además de generalizar de forma natural a los nuevos datos.

$t$ -SNE puede ser potencialmente si utilizamos una técnica de agrupación no basada en la distancia, como el FMM (Finite Modelos de mezcla ) o DBSCAN ( Modelos basados en la densidad ). Como usted señala correctamente, en estos casos, el $t$ -La salida de SNE puede ser bastante útil. El problema en estos casos de uso es que algunas personas podrían tratar de leer en la colocación de los clusters y no sólo en la pertenencia a los mismos. Como las distancias globales se pierden, sacar conclusiones a partir de la ubicación de los clústeres puede llevar a conclusiones erróneas. Obsérvese que sólo con decir " Hey, hemos encontrado todos los 1 s se agrupan " no ofrece un gran valor si no puede decir de qué están lejos. Si sólo quisiéramos encontrar el 1 También podríamos haber utilizado la clasificación para empezar (lo que nos lleva de nuevo al uso de autocodificadores).

1 votos

La pregunta parece referirse más a la agrupación que a la clasificación. Al menos la agrupación está en el título.

0 votos

@amoeba: Yo pensé lo mismo y escribí sobre el uso potencial a través de la agrupación no basada en la distancia (por ejemplo, FMM, DBSCAN), pero luego leí la pregunta: " ¿por qué no se utiliza como técnica de reducción de la dimensionalidad que luego se utiliza para los modelos de clasificación? "

0 votos

Sí, pero el título Q es diferente. Creo que el OP podría estar confundido sobre la diferencia, por lo que podría tener sentido abordar ambos ¡en su A!

8voto

El t-SNE no preserva las distancias, pero básicamente estima las distribuciones de probabilidad. En teoría, los algoritmos t-SNE mapean la entrada a un espacio de mapas de 2 o 3 dimensiones. Se supone que el espacio de entrada es una distribución gaussiana y el espacio de mapas una distribución t. La función de pérdida utilizada es la divergencia KL entre las dos distribuciones, que se minimiza mediante el descenso de gradiente.

Según Laurens van der Maaten, coautor de t-SNE

t-SNE no conserva las distancias sino las probabilidades, por lo que la medición de algunos error entre las distancias euclidianas en alta-D y baja-D es inútil.

Referencia:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-introduction-to-the-t-sne-algorithm

5voto

Oxinabox Puntos 367

Como afirmación general: dado un clasificador suficientemente potente (/adecuado), o cluster-er, uno nunca aplicaría cualquier reducción de la dimensionalidad.

La reducción de la dimensionalidad pierde información.

Ya que un clusterer o clasificador (esp clasificadores, menos clusterers) incorpora internamente alguna forma de proyección a un espacio significativo. Y la reducción de la dimensionalidad es también una proyección a un espacio (esperanzadoramente) significativo.

Pero la reducción de la dimensionalidad tiene que hacerlo de forma desinformada: no sabe para qué tarea se está reduciendo. Esto es especialmente cierto en el caso de la clasificación, donde se dispone de información supervisada. Pero también se aplica al clustering, donde el espacio al que uno querría proyectarse para el clustering está mejor definido (para este algoritmo) que simplemente "tener menos dimensiones). La respuesta de @usεr11852 habla de esto. Como he dicho, la reducción de la dimensionalidad no sabe para qué tarea se está reduciendo, sino que se le informa en la elección del algoritmo de reducción de la dimensionalidad que se va a utilizar.

Así que a menudo, en lugar de añadir un paso de reducción de la dimensionalidad como preprocesamiento antes de la agrupación/clasificación, es mejor utilizar un clasificador/clasificador diferente que incorpore una proyección útil.

Sin embargo, una cosa que la reducción de dimensionalidad tiene a su favor es su naturaleza no supervisada en la creación de la proyección al espacio (esperemos) significativo. Lo cual es útil si se tienen pocos datos de etiquetas. Pero a menudo hay otros métodos que están estrechamente vinculados a su clasificador (por ejemplo, para las redes neuronales, utilizando el autoencoder, por ejemplo, el preentrenamiento de la red de creencia profunda) que van a funcionar mejor, porque están diseñados con esa tarea final en mente. No la tarea más general de reducción de la dimensionalidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X