14 votos

¿Qué algoritmo de clasificación debe un uso después de ver que t-SNE separa bien las clases?

Vamos a asumir que tenemos un problema de clasificación y en primer lugar, queremos obtener una idea de los datos y hacemos t-SNE. El resultado de t-SNE separa las clases muy bien. Esto implica que es posible construir el modelo de clasificación que también clases separadas muy bien (si t-SNE no separan bien entonces no significan mucho).

Sabiendo que t-SNE se centra en la estructura local y que se puede separar las clases de: ¿Qué son los algoritmos de clasificación que debería funcionar bien en este problema? Scikit sugiere SVM con una Gaussiana kernel RBF, pero ¿cuáles son los otros?

10voto

Zhubarb Puntos 2330

Primero una breve respuesta y, a continuación, un comentario más largo:

Respuesta

ENCS técnicas informáticas de N ×N matriz de similitud en los datos originales en el espacio y en el bajo-dimensional de la incrustación de espacio de tal manera que las similitudes forma una distribución de probabilidad sobre los pares de objetos. Específicamente, las probabilidades se da generalmente por una normalizado núcleo Gaussiano se calcula a partir de los datos de entrada o de la incrustación. En términos de clasificación, este de inmediato trae a la mente el ejemplo de aprendizaje basado en métodos. Usted ha enumerado uno de ellos: SVM con RBF, y @ameba ha enumerado kNN. También hay radial de la función de base de redes, que yo no soy un experto en.

Comentario

Habiendo dicho eso, me gustaría ser doblemente cuidadoso acerca de hacer inferencias sobre un conjunto de datos de sólo mirar a t-SNE parcelas. t-SNE no necesariamente se centran en la estructura local. Sin embargo, usted puede ajustar de hacerlo mediante la optimización de la perplexity parámetro, que regula (sin apretar) cómo equilibrar la atención entre lo local y lo global de los datos.

En este contexto, perplexity sí es una puñalada en la oscuridad acerca de cómo muchos de los países vecinos de cada observación puede tener y es proporcionado por el usuario. El artículo original dice: "El rendimiento de t-SNE es bastante robusto a cambios en la perplejidad, y los valores típicos están entre los 5 y los 50". Sin embargo, mi experiencia es que la mayoría de la t-SNE puede significar el análisis de múltiples parcelas con diferentes perplejidades.

En otras palabras, el ajuste de la learning rate y perplexity, es posible obtener muy diferentes en busca de 2-d de parcelas para el mismo número de pasos de entrenamiento y el uso de los mismos datos.

Este Destilar papel Cómo Utilizar t-SNE Efectivamente da un gran resumen de los errores comunes de t-SNE análisis. El resumen de los puntos son:

  1. Los hyperparameters (por ejemplo, ritmo de aprendizaje, la perplejidad) realmente importa

  2. Tamaños de clúster en un t-SNE de la parcela no significan nada

  3. Las distancias entre los grupos no puede significar nada

  4. El ruido aleatorio no siempre se ven al azar.

  5. Usted puede ver algunas de las formas, a veces

  6. Para la topología, se puede necesitar más de una parcela

Específicamente a partir de los puntos 2, 3, y 6 arriba, me gustaría pensar dos veces acerca de hacer inferencias acerca de la divisibilidad de los datos buscando en el individuo t-SNE parcelas. Hay muchos casos donde se puede "fabricar" de los gráficos que muestran una clara clusters utilizando los parámetros correctos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X