68 votos

¿Es importante escalar los datos antes de agruparlos?

He encontrado este tutorial lo que sugiere que debería ejecutar la función de escala en las características antes de agruparlas (creo que convierte los datos en puntuaciones z).

Me pregunto si es necesario. Lo pregunto sobre todo porque hay un punto de codo agradable cuando no escalar los datos, pero desaparece cuando se escala. :)

1 votos

En su lugar, puede utilizar técnicas de agrupación invariante de escala, véase datasciencentral.com/perfiles/blogs/

1voto

user3629081 Puntos 209

La estandarización (normalización de la puntuación Z) consiste en llevar los datos a una media de 0 y una desviación estándar de 1. Esto puede lograrse mediante (x-xmedia)/desviación estándar.

La normalización consiste en llevar los datos a una escala de [0,1]. Esto se puede lograr mediante (x-xmin)/(xmax-xmin).

En el caso de algoritmos como el de agrupación, cada rango de características puede ser diferente. Digamos que tenemos los ingresos y la edad. El rango de ingresos es [65000,150000] y el de edad [21,90]. Como calculamos la distancia (euclidiana, manhattan, etc.), es importante que el rango de cada variable esté al mismo nivel, por lo que creo que hay que hacer una normalización para que todas las características tengan un rango de [0,1].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X