Estoy trabajando con un conjunto de datos donde la variable dependiente es continua (precio de venta de las casas) y hay un par de docenas de características que estoy utilizando para predecir el precio de venta utilizando un modelo de regresión lineal. Estas características incluyen variables binarias ficticias, categóricas y continuas, todas ellas en diferentes escalas.
La variable dependiente (precio de venta) está sesgada, así que en su lugar he creado una nueva función que es log(salePrice)
para que la distribución esté centrada. Mi pregunta es, yo había planeado usar SckiKit-Learn's StadardScaler clase sobre las características explicativas. ¿Tiene sentido utilizar dos técnicas de preprocesamiento diferentes, o debería utilizar simplemente el log
de todas las características explicativas como hago con la variable dependiente?