Quiero saber cómo interpretar t -Distribución estocástica de vecinos (t-SNE). En particular: 1) ¿Qué información transmiten, además de mostrar clusters? 2) En PCA podemos ver las cargas e interpretar los componentes como factores que explican la variabilidad de las características originales. ¿Existe una forma similar de hacerlo en t-SNE? ¿O sólo podemos decir "Los datos estaban bien separados con t-SNE pero no sabemos por qué"?
Respuesta
¿Demasiados anuncios?A diferencia del PCA, los ejes en el espacio de baja dimensión no tienen un significado particular. De hecho, uno podría rotar arbitrariamente los puntos de baja dimensión y la función de coste de t-SNE no cambiaría. Además, t-SNE no construye mapeos explícitos que relacionen los espacios de alta y baja dimensión.
El t-SNE captura la estructura en el sentido de que los puntos vecinos en el espacio de entrada tenderán a ser vecinos en el espacio de baja dimensión.
Sin embargo, hay que tener cierto cuidado porque las distancias más grandes no se pueden interpretar necesariamente. Si los puntos están separados en el espacio de entrada, t-SNE querrá separarlos en el espacio de baja dimensión. Pero, no le importa hasta qué punto son (a diferencia de PCA, MDS o isomap, por ejemplo). Otro problema es que el t-SNE a veces rompe segmentos continuos de datos en trozos y los separa artificialmente, sobre todo en ajustes de baja perplejidad. Véase aquí para un buen ejemplo. t-SNE se enmarca como una herramienta de visualización más que una herramienta de preprocesamiento o análisis, y hacer cosas como el clustering en el espacio de baja dimensión puede ser peligroso debido a estos problemas. El resultado es que la distorsión de las distancias a veces permite a t-SNE producir buenas visualizaciones de 2/3d de datos que son intrínsecamente de mayor dimensión.
Una de las formas en que las visualizaciones t-SNE pueden ser útiles es combinándolas con información externa. Esto puede revelar patrones en los datos de los que quizás no seamos conscientes. Por ejemplo, los artículos de t-SNE muestran visualizaciones del conjunto de datos MNIST (imágenes de dígitos escritos a mano). Las imágenes se agrupan según el dígito que representan, algo que ya sabíamos, por supuesto. Pero, mirando en un clúster, las imágenes similares tienden a agruparse (por ejemplo, las imágenes del dígito "1" que están inclinadas hacia la izquierda frente a la derecha). Además, los puntos que aparecen en el grupo "equivocado" a veces están mal etiquetados en el conjunto de datos original, o están escritos de forma ambigua (por ejemplo, algo entre un "4" y un "9").