La estandarización (normalización de la puntuación Z) consiste en llevar los datos a una media de 0 y una desviación estándar de 1. Esto puede lograrse mediante (x-xmedia)/desviación estándar.
La normalización consiste en llevar los datos a una escala de [0,1]. Esto se puede lograr mediante (x-xmin)/(xmax-xmin).
En el caso de algoritmos como el de agrupación, cada rango de características puede ser diferente. Digamos que tenemos los ingresos y la edad. El rango de ingresos es [65000,150000] y el de edad [21,90]. Como calculamos la distancia (euclidiana, manhattan, etc.), es importante que el rango de cada variable esté al mismo nivel, por lo que creo que hay que hacer una normalización para que todas las características tengan un rango de [0,1].
1 votos
En su lugar, puede utilizar técnicas de agrupación invariante de escala, véase datasciencentral.com/perfiles/blogs/