37 votos

Cuando es t-SNE engañosa?

Cito de uno de los autores:

t-Distribuido Estocástico Vecino Incrustación de objetos (t-SNE) es un (ganador del premio), la técnica de reducción de dimensionalidad que es especialmente adecuado para la visualización de grandes dimensiones de los conjuntos de datos.

Así suena bastante grandes, sino que es el Autor de hablar.

Otra cita del autor (re: la mencionada competencia):

Qué te ha llevado lejos de esta competencia?
Siempre visualizar los datos en primer lugar, antes de comenzar a entrenar predictores en los datos! A menudo, las visualizaciones tales como las que hice dar una idea de la distribución de los datos que pueden ayudar en la determinación de qué tipos de modelos de predicción para probar.

La información debe* ser perdido, es una técnica de reducción de dimensionalidad, despues de todo. Sin embargo, como es una buena técnica a utilizar cuando la visualización, la información que se pierde es menos valiosa que la información resaltada (/ver/comprender-poder a través de la reducción a 2 o 3 dimensiones).

Así que mi pregunta es:

  • Cuando se tSNE la herramienta equivocada para el trabajo?
  • ¿Qué tipo de conjuntos de datos a causa de que no funcione,
  • ¿Qué tipo de preguntas hace que se vea como se pueden contestar, pero en realidad no puede?
  • En la segunda cita anterior se recomienda siempre visualizar el conjunto de datos, debe esta visualización se realizará siempre con tSNE?

Espero que esta pregunta podría ser la mejor contestada en la situación inversa, es decir, se responde: Cuando se tSNE la herramienta adecuada para el trabajo?


He sido advertidos de no depender de tSNE para que me diga cómo de datos fácil será clasificable (separados en clases, un modelo discriminativo) El ejemplo de ser engañosa fue, que, para las dos imágenes de abajo, un modelo generativo2 fue peor para los datos visualizados en la primera o a la izquierda (exactitud 53.6%) de un equivalente de la segunda/derecha (precisión 67.2%).

firstsecond


1yo podría estar equivocado acerca de esto me puede sentarse y tratar en una prueba/contador ejemplo más adelante

2tenga en cuenta que un modelo generativo no es el mismo que el de un discriminitive modelo, pero este es el ejemplo que me dieron.

14voto

p1100i Puntos 130

T-Sne es una técnica de reducción que se mantiene a la pequeña escala de la estructura (es decir, lo que es particularmente cercano a lo del espacio, que hace que sea muy bueno en la visualización de los datos de divisibilidad. Esto significa que el T-Sne es particularmente útil para los principios de la visualización orientada a la comprensión de la licenciatura de datos de divisibilidad. Otras técnicas (PCA, por ejemplo) dejar datos en menor representaciones tridimensionales proyectadas en la parte superior de uno al otro como las dimensiones de desaparecer, lo que hace muy difícil hacer cualquier declaración clara acerca de la divisibilidad en el espacio dimensional superior.

Así, por ejemplo, si usted consigue un T-Sne gráfico con un montón de superposición de datos, las probabilidades son altas de que su clasificador se realice mal, no importa lo que hagas. Por el contrario, si se ve claramente separados de los datos en el T-Sne gráfica, entonces la base de datos de alta dimensión contiene una variabilidad suficiente para construir un buen clasificador.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X