5 votos

¿Cuáles son los beneficios de la función escalar?

Imagina que tienes dos conjuntos de datos diferentes que cada una tiene una función de representación de las personas de edad. Un conjunto de datos recabados de los adolescentes la otra es la de las personas de edad.

# Feature 1:
ages_1 = [15, 15, 16, 17, 17, 18, 19, 19]

# Feature 2:
ages_2 = [75, 75, 76, 77, 77, 78, 79, 79]

Si tenemos la escala de estas dos características, vamos a obtener exactamente el mismo vector, lo que significa que vamos a perder la información que representan dos diferentes grupos de edad. Por otra parte, a menos que almacenar los parámetros de la transformación (min/max o media/std), esta información será irrecuperable.

Otra consecuencia de la función de escala es que las características de perder su interpretación. Por ejemplo, una edad de 0.87 (después de la ampliación) acaba de decir que se pertenece a una de las más antiguas de las personas en el conjunto de datos (puede ser de 18 años en el primer caso o 78 en el segundo -, no hay manera de que podamos decir).

Teniendo en cuenta que tenemos mucho que perder por la ampliación de la cuenta, ¿por qué es característica de escala tan popular en el Aprendizaje de Máquina?

5voto

Krull Puntos 21

Algunos algoritmos de Aprendizaje automático requieren todas las características para estar en el mismo rango para que funcione correctamente, o ellos tienden a prestar más atención a algunas características más que el otro. Un ejemplo de este tipo de algoritmos están basados en la distancia de los algoritmos.

Por ejemplo, digamos que usted tiene un conjunto de datos donde dos de sus características son:

age = [33, 35, 55, 67, 77, 78, 80, 83, 85, 93]
height = [1.67, 1.72, 1.73, 1.76, 1.8, 1.81, 1.83, 1.85, 1.88, 1.91]

La diferencia de la más alta a la más corta de la persona es sólo 0.24 unidades, mientras que la diferencia de la más antigua a la más joven es 60 unidades. Esto significa que este algoritmo va a tratar de las edades como mucho más importante que las alturas.

Por la normalización de las características a la misma distancia, usted está asegurando que el algoritmo trata con igualdad de importancia.

También puede leer este mensaje, con una respuesta más detallada sobre el por qué de la normalización es necesaria para la k-NN.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X