27 votos

¿Deben centrarse los datos y escalarse antes de aplicar t-SNE?

Algunas de las características de mis datos tienen valores grandes, mientras que otras características tienen valores mucho más pequeños.

¿Es necesario centrar + escalar los datos antes de aplicar t-SNE para evitar el sesgo hacia los valores más grandes?

Utilizo la implementación sklearn.manifold.TSNE de Python con la métrica de distancia euclidiana predeterminada.

35voto

Amir Eldor Puntos 48

El centrado no debería importar ya que el algoritmo solo opera en distancias entre puntos, sin embargo, el reescalado es necesario si desea que las diferentes dimensiones se traten con la misma importancia, ya que la norma 2 estará más influenciada por dimensiones con gran varianza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X