Se trata de una pregunta relativa a una práctica o método seguido por algunos de mis colegas. Al hacer un modelo de regresión logística, he visto a gente que sustituye las variables categóricas (o las variables continuas que se clasifican) por su respectivo peso de la evidencia (PdE). Esto se hace supuestamente para establecer un monotónica relación entre el regresor y la variable dependiente. Ahora bien, según tengo entendido, una vez hecho el modelo, las variables de la ecuación NO son las variables del conjunto de datos. Más bien, las variables de la ecuación son ahora una especie de importancia o peso de las variables en la segregación de la variable dependiente ¡!
Mi pregunta es: ¿cómo interpretamos ahora el modelo o los coeficientes del modelo? Por ejemplo para la siguiente ecuación : $$ \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 $$
podemos decir que $\exp(\beta_1)$ es el aumento relativo del coeficiente de impar para 1 unidad de aumento de la variable $x_1$ .
Pero si la variable se sustituye por su WoE, entonces la interpretación cambiará a : aumento relativo del coeficiente de impar para 1 unidad de aumento de la IMPORTANCIA / PESO de la variable
He visto esta práctica en Internet, pero en ninguna parte he encontrado respuesta a esta pregunta. Este enlace de la propia comunidad está relacionado con una consulta algo similar en la que alguien escribió:
WoE muestra una relación lineal con el odds ratio, que es la variable dependiente en la regresión logística. Por lo tanto, la cuestión de la mala especificación del modelo no se plantea en la regresión logística cuando utilizamos WoE en su lugar. regresión logística cuando utilizamos WoE en lugar de los valores reales de la variable. la variable.
Pero sigo sin entender la explicación. Por favor, ayúdame a entender lo que me estoy perdiendo.