Imagina que tienes dos conjuntos de datos diferentes que cada una tiene una función de representación de las personas de edad. Un conjunto de datos recabados de los adolescentes la otra es la de las personas de edad.
# Feature 1:
ages_1 = [15, 15, 16, 17, 17, 18, 19, 19]
# Feature 2:
ages_2 = [75, 75, 76, 77, 77, 78, 79, 79]
Si tenemos la escala de estas dos características, vamos a obtener exactamente el mismo vector, lo que significa que vamos a perder la información que representan dos diferentes grupos de edad. Por otra parte, a menos que almacenar los parámetros de la transformación (min/max o media/std), esta información será irrecuperable.
Otra consecuencia de la función de escala es que las características de perder su interpretación. Por ejemplo, una edad de 0.87 (después de la ampliación) acaba de decir que se pertenece a una de las más antiguas de las personas en el conjunto de datos (puede ser de 18 años en el primer caso o 78 en el segundo -, no hay manera de que podamos decir).
Teniendo en cuenta que tenemos mucho que perder por la ampliación de la cuenta, ¿por qué es característica de escala tan popular en el Aprendizaje de Máquina?