18 votos

La elección de la hyperparameters el uso de T-SNE para la clasificación

Como problema específico con los que trabajo (a la competencia) tengo la siguiente configuración: 21 características (numérica en [0,1]) y una salida binaria. Tengo aprox 100 K filas. El ajuste parece ser muy ruidoso.

A mí y a otros participantes aplicar característica de la generación de un rato y t-distribuido estocástico vecino de la incrustación resultó ser bastante potente en esta configuración.

Me topé con este post "Cómo Utilizar t-SNE Efectivamente" pero todavía no puedo realmente concluir sobre cómo elegir el hyperparameters mejor en mi configuración de classifcation.

Hay reglas de oro (serie de características, dimensión de embedding -> elección de perplejidad)?

Acabo de aplicar ad-hoc de la configuración en el momento en que se toma demasiado tiempo para recorrer distintas opciones de configuración. Gracias por los comentarios.

20voto

usεr11852 Puntos 5514

Yo habitualmente uso $t$-ENCS (junto con técnicas de clustering - más sobre esto en el final) para reconocer a los/evaluar la presencia de clusters en mis datos. Por desgracia, para mi conocimiento, no hay ninguna forma estándar para elegir la correcta perplejidad de lado mirando a la producción de reducción de la dimensión del conjunto de datos y, a continuación, evaluar si es significativo. Hay algunos hechos generales, por ejemplo. las distancias entre los grupos son en su mayoría sin sentido, pequeña perplejidad valores fomentan pequeño coágulo-como las estructuras, pero de eso se trata.

Una muy aproximada de la regla de oro es para comprobar cuál es el valor del error asociado con cada reconstrucción. $t$-SNE está tratando de minimizar la suma de los de Kullback-Leibler divergencias entre la distribución de las distancias entre los datos en el dominio original y la distribución de las distancias entre los datos en la reducción de la dimensión de dominio (en realidad el objetivo de distribuciones son las distribuciones de las probabilidades de que un punto se elige otro punto como el de su vecino, pero estos son directamente proporcionales a la distancia entre los dos puntos). Se podría argumentar que los más pequeños los valores de KL-divergencia de mostrar mejores resultados. Esta idea no funciona muy bien en la práctica, pero sería teóricamente ayudar a excluir algunos rangos de la perplejidad de los valores, así como algunas ejecuciones del algoritmo, que son claramente deficiente. Puedo explicar por qué esta heurística está lejos de ser una panacea y cómo podría pesar de ser medianamente útil: La perplejidad parámetro aumenta monótonamente con la varianza de la Gaussiana utilizado para calcular las distancias/de probabilidades. Por lo tanto, a medida que aumente la perplejidad parámetro como un todo, usted conseguirá más pequeñas distancias en términos absolutos y posterior KL-divergencia de valores. Sin embargo, si usted tiene 20 carreras con la misma perplejidad y usted no puede (no quiere) buscar en ellos se puede escoger siempre el uno con el más pequeño de la variable esperanza de que se conserva el original distancias con mayor precisión. Lo mismo va para el $\theta$, la aproximación del parámetro para el Barnes-Hut aproximación, suponiendo que la perplejidad se fija el cambio de $\theta$ y, a continuación, comprobar el resultado de los costos debe ser algo informativo. En el final del día, disminuir los costos están asociados con más fieles reconstrucciones. No todo está perdido, aunque...

Para su uso particular caso, un truco ligeramente automatizar el procedimiento de selección de una buena perplejidad valor es el siguiente: un pequeño procedimiento de agrupamiento (por decir un $k$-medio o DBSCAN) en la reducción de la dimensionalidad del conjunto de datos y, a continuación, evaluar la calidad de esa agrupación el uso de algún tipo de índice (Cohen $k$, índice Rand, Fowlkes-Mallows, etc.) en contra de lo que se intenta predecir. La idea aquí es que para su tarea a la mano la correcta representación de los datos (la perplejidad dependientes $t$-SNE resultados) debe dar el más informativo de la representación (en la forma de una de las métricas mencionadas) en términos de su alineación con la propiedad que tratar de predecir. Esta es la razón por la $t$-SNE fue utilizado en primer lugar, después de todo, si el resultado de la representación es poco informativo para las propiedades que están investigando, entonces simplemente no hay una buena a pesar de su bajo error de reconstrucción, atractivo visual, etc. etc.

Permítanme señalar que describo son heurísticas. Como se mencionó al principio de mi post, manual de inspección, de los resultados es una forma indispensable de la evaluación de la calidad de la resultante de la reducción de dimensionalidad/agrupación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X