Mi pregunta es si necesitamos estandarizar el conjunto de datos para asegurarnos de que todas las variables tienen la misma escala, entre [0,1], antes de ajustar la regresión logística. La fórmula es:
$$ \frac {x_i- \min (x_i)}{ \max (x_i)- \min (x_i)}$$
Mi conjunto de datos tiene 2 variables, describen lo mismo para dos canales, pero el volumen es diferente. Digamos que es el número de visitas de clientes en dos tiendas, y aquí está si un cliente compra. Porque un cliente puede visitar ambas tiendas, o dos veces la primera tienda, una segunda tienda antes de hacer una compra. pero el número total de visitas de clientes para la primera tienda es 10 veces mayor que la segunda tienda. Cuando encajo esta regresión logística, sin estandarización, coef(store1)=37, coef(store2)=13
Si estandarizo los datos, entonces coef(store1)=133, coef(store2)=11
. Algo así. ¿Qué enfoque tiene más sentido?
¿Y si estoy ajustando un modelo de árbol de decisiones? Sé que los modelos de estructura de árbol no necesitan estandarización ya que el propio modelo lo ajustará de alguna manera. Pero comprobando con todos ustedes.
14 votos
No es necesario estandarizar a menos que la regresión esté regularizada. Sin embargo, a veces ayuda a la interpretabilidad, y rara vez perjudica.
0 votos
@alex, ¿qué quieres decir con "regresión regularizada"?
5 votos
¿No es la forma habitual de normalizar $\frac{x_i-\bar{x}}{sd(x)}$ ?
2 votos
@Peter, eso es lo que pensaba antes, pero he encontrado un artículo benetzkorn.com/2011/11/data-normalization-and-standardization/ >, parece que la normalización y la estandarización son cosas diferentes. Una es hacer media 0 varianza 1, la otra es reescalar cada variable. Ahí es donde me confundo. Gracias por tu respuesta.
0 votos
@alex, tienes razón en lo de que no hará daño, cuz calculé el AUC en el grupo de prueba, y encontré resultados similares. La cosa es que estoy calculando el peso de cada canal utilizando el coeficiente. Eso hace mucha diferencia.
12 votos
Para mí, la estandarización hace que la interpretación sea mucho más difícil.
0 votos
Un antiguo post sobre estandarización/normalización: stats.stackexchange.com/questions/10289/
2 votos
Para aclarar lo que ha dicho @alex, el escalado de los datos implica el factor de regularización óptimo
C
cambios. Así que hay que elegirC
después de normalizar los datos.1 votos
La normalización de la variable no debe confundirse con coeficientes estandarizados .
2 votos
Creo que a veces es simple e intuitivo hacer un escalado de características triviales, como si los precios de las casas se almacenan realmente en miles (por ejemplo, 60.000) no estaría de más dividirlo por 1000. Este tipo de escalado de sentido común no puede hacer daño.
0 votos
Para su información, si estandariza de esta manera puede tener problemas con la división por cero al actualizar los pesos.