Mis características de cada dimensión tiene diferente rango de valor. Quiero saber si es esencial para normalizar este conjunto de datos. Gracias
Respuestas
¿Demasiados anuncios?La respuesta a tu pregunta depende de lo que la similitud/distancia de la función que usted planea utilizar (en SVMs). Si es sencillo (no ponderado) la distancia Euclídea, a continuación, si no se normalizan los datos que son involuntariamente dando algunas de las características más importancia que otros.
Por ejemplo, si la primera dimensión varía de 0 a 10, y la segunda dimensión de 0-1, con una diferencia de 1 en la primera dimensión (sólo una décima parte de la gama) contribuye en la distancia de cálculo como dos versiones totalmente diferentes de los valores en la segunda dimensión (0 y 1). Al hacer esto, estás exagerando pequeñas diferencias en la primera dimensión. Usted podría, por supuesto, vienen con una función de distancia o el peso de sus dimensiones por un experto de la estimación, pero esto va a llevar a un gran número de parámetros ajustables dependiendo de la dimensionalidad de los datos. En este caso, la normalización es un camino más fácil (aunque no necesariamente ideal) porque al menos puede empezar.
Finalmente, aún así, para SVMs, otra cosa que puedes hacer es venir con una similitud de función en lugar de una función de distancia y enchufarlo como un núcleo (técnicamente esta función debe generar positivo-definida matrices). Esta función pueden ser construidos de cualquier forma que te gusta y puede tomar en cuenta la disparidad en los rangos de características.
Para bosques aleatorios por otro lado, dado que una característica es que nunca compararse en magnitud a otras características, los rangos no importa. Es sólo el rango de una función que se reparte en cada etapa.
Bosque aleatorio es invariante a transformaciones monotónicas de características individuales. Traducciones o por la característica de escalamientos no va a cambiar nada por el Bosque Aleatorio. SVM probablemente hará mejor si sus características tienen aproximadamente la misma magnitud, a menos que usted sepa apriori que algunos característica es mucho más importante que los otros, en cuyo caso está bien para tener una mayor magnitud.