6 votos

La normalización de las entradas para el CARRO

Yo sé que no lo necesita para estandarizar las variables predictoras antes de aplicar el CARRO pero ¿habrá alguna los efectos adversos a hacerlo de todos modos? Estoy comparando el CARRITO de una regresión lineal donde hice estandarizar las entradas y en aras de la coherencia que me gustaría hacer el mismo CARRO, pero que podría ser perjudicial para los resultados? No estoy realmente seguro de cómo CARRO va sobre la búsqueda de la división de punto en cada nodo (I no puede encontrar una copia del documento original y la mayoría de lo que he leído sólo omite ese detalle) pero yo creo que la normalización de las entradas realidad podría ayudar a acelerar ese proceso. ¿Alguien tiene alguna intuición en este sentido?

5voto

Mi respuesta en este escenario está basado en mi entendimiento intuitivo de cómo CARRO funciona, así que tome valor nominal.

Normalización de no añadir o restar de la información contenida en una variable determinada y no falsear su relación con la variable objetivo. Por ejemplo, si usted tuvo una variable "edad", que fue un predictor para la "compra de un automóvil". Por el cambio de edad (la edad media / sd ) no va a cambiar su relación con la compra de un automóvil, simplemente se asigna a un nuevo espacio.

Cuando el CARRO se ve para el mejor divisiones, se va a utilizar la entropía o de gini para calcular la ganancia de información, esto no es dependiente de la escala de la variable predictora, más bien la resultante de la pureza de la variable "comprar coche".

Tan largo de la historia corta, la normalización no deberían influir en su solución final. Para comprobar esto, basta con ejecutar el modelo de dos veces. Una vez en la versión estandarizada de los datos y una vez con el original. Si todo va bien, debería ver las mismas variables y el orden de selección, sólo diferentes de corte.

Edit: he anexado dos imágenes para la referencia de un árbol con y sin estandarizada de insumos.

With raw data

With standardized data

3voto

David Plumpton Puntos 1345

Voy a tratar de dar una prueba formal para aclarar las cosas.

Paso 1

Se denota con a $x = {x_1, x_2, .., x_n}$ un vector, y con $var(x)=\frac{1}{n}\sum_{i=1}^{n}(x_i-\frac{1}{n}\sum_{j=1}^{n}x_j)^2$ de la muestra sesgada de la varianza. Se denota con a $y = \frac{x-m}{sd}$ la versión a escala.

Debemos encontrar una fórmula para $var(y)$ en términos de $var(x),m,sd$.

$$var(y)=\frac{1}{n}\sum_{i=1}^{n}(y_i-\frac{1}{n}\sum_{j=1}^{n}y_j)^2 = \frac{1}{n}\sum_{i=1}^{n}\frac{x_i-m}{sd}-\frac{1}{n}\sum_{j=1}^{n}\frac{x_j-m}{sd})^2 $$ $$= \frac{1}{n sd^2}\sum_{i=1}^{n}(x_i-m-\frac{1}{n}\sum_{j=1}^{n}(x_j-m))^2$$ $$ = \frac{1}{n sd^2}\sum_{i=1}^{n}(x_i-m-\frac{1}{n}\sum_{j=1}^{n}x_j+\frac{1}{n}\sum_{j=1}^{n}m)^2 $$ $$ = \frac{1}{n sd^2}\sum_{i=1}^{n}(x_i-m-\frac{1}{n}\sum_{j=1}^{n}x_j+m)^2 = \frac{1}{n sd^2}\sum_{i=1}^{n}(x_i-\frac{1}{n}\sum_{j=1}^{n}x_j)^2 $$ $$ = \frac{1}{sd^2}var(x) $$ Así que sabemos que la varianza de la versión a escala es proporcional a la varianza de sin escala de la versión. $$var(y)=\frac{1}{sd^2}var(x)$$

Paso 2

Para el CARRO de regresión sabemos que la división de la prueba se evalúa con una fórmula parecida a $var(x_{left})+var(x_{right})$ donde $x_{left}$ se compone de todos los valores observados de la variable de destino que son menores o iguales de un cierto umbral de valor en la variable de prueba.

Con el fin de mostrar que varias de las pruebas que conserva el mismo orden después de escalar creo que no es suficiente para decir algo como:

Para cualquier dos binario se divide de los valores de las variables objetivo, si la función de evaluación para la primera división es menor que el de la función de evaluación de la fracción de segundo en el sin escala variable implica que la función de evaluación para la primera división es menor que la función de evaluación de la fracción de segundo en la escala de la variable.

En la llanura inglés comparación entre divisiones es el mismo para escalar y sin escala de las variables.

La demostración es trivial ya que la función de evaluación es $split(x_{left},x_{x_right})=var(x_{left})+var(x_{right})$, y sabemos que sin escala de varianza para la versión es proporcional a la varianza para la versión a escala, y esta propiedad se conserva en la adición.

Comentarios finales

Basado en la intuición, estoy de acuerdo con @ArunJose desde el principio. Sin embargo, yo quería una prueba sólida. Así que, sin ánimo de ofender, @ArunJose, yo sólo quería estar seguro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X