- Según mi experiencia, no es necesario, pero transformar variables puede ser muy beneficioso. También depende siempre de la variable. También depende del tipo de modelo que esté utilizando; para la regresión logística es una buena idea y una recomendación sería utilizar el agrupamiento por peso de la evidencia (WOE).
Para otros algoritmos basados en árboles, como Random Forest, no es necesario, ya que el algoritmo realizará los cortes por sí mismo.
- La respuesta es No. Por el bien del argumento, digamos que usted ha creado una Regresión Logística, con una variable transformada.
Esa variable transformada es en realidad una variable NUEVA, por lo que una vez que obtengas un nuevo conjunto de datos, deberás aplicar las mismas transformaciones y luego hacer tus predicciones.
Si no he sido claro en alguno de mis puntos, hágamelo saber y estaré encantado de explicarlo :)