28 votos

Sustitución de variables por el peso de la evidencia en la regresión logística

Se trata de una pregunta relativa a una práctica o método seguido por algunos de mis colegas. Al hacer un modelo de regresión logística, he visto a gente que sustituye las variables categóricas (o las variables continuas que se clasifican) por su respectivo peso de la evidencia (PdE). Esto se hace supuestamente para establecer un monotónica relación entre el regresor y la variable dependiente. Ahora bien, según tengo entendido, una vez hecho el modelo, las variables de la ecuación NO son las variables del conjunto de datos. Más bien, las variables de la ecuación son ahora una especie de importancia o peso de las variables en la segregación de la variable dependiente ¡!

Mi pregunta es: ¿cómo interpretamos ahora el modelo o los coeficientes del modelo? Por ejemplo para la siguiente ecuación : $$ \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 $$

podemos decir que $\exp(\beta_1)$ es el aumento relativo del coeficiente de impar para 1 unidad de aumento de la variable $x_1$ .

Pero si la variable se sustituye por su WoE, entonces la interpretación cambiará a : aumento relativo del coeficiente de impar para 1 unidad de aumento de la IMPORTANCIA / PESO de la variable

He visto esta práctica en Internet, pero en ninguna parte he encontrado respuesta a esta pregunta. Este enlace de la propia comunidad está relacionado con una consulta algo similar en la que alguien escribió:

WoE muestra una relación lineal con el odds ratio, que es la variable dependiente en la regresión logística. Por lo tanto, la cuestión de la mala especificación del modelo no se plantea en la regresión logística cuando utilizamos WoE en su lugar. regresión logística cuando utilizamos WoE en lugar de los valores reales de la variable. la variable.

Pero sigo sin entender la explicación. Por favor, ayúdame a entender lo que me estoy perdiendo.

23voto

skater Puntos 1

El método WoE consta de dos pasos:

  1. dividir (una variable continua) en pocas categorías o agrupar (una variable discreta) en pocas categorías (y en ambos casos se supone que todas las observaciones de una categoría tienen "el mismo" efecto sobre la variable dependiente)
  2. para calcular el valor WoE de cada categoría (a continuación, los valores x originales se sustituyen por los valores WoE)

La transformación de WoE tiene (al menos) tres efectos positivos:

  1. Puede transformar una variable independiente para que establezca una relación monótona con la variable dependiente. En realidad hace más que esto - para asegurar la relación monotónica sería suficiente "recodificarla" a cualquier medida ordenada (por ejemplo 1,2,3,4...) pero la transformación WoE en realidad ordena las categorías en una escala "logística" que es natural para la regresión logística.

  2. En el caso de variables con demasiados valores discretos (poco poblados), éstos pueden agruparse en categorías (densamente pobladas) y la WoE puede utilizarse para expresar la información de toda la categoría.

  3. El efecto (univariante) de cada categoría sobre la variable dependiente puede compararse simplemente entre categorías y entre variables porque WoE es un valor estandarizado (por ejemplo, puede comparar WoE de personas casadas con WoE de trabajadores manuales).

También tiene (al menos) tres inconvenientes:

  1. Pérdida de información (variación) debida al agrupamiento en pocas categorías

  2. Es una medida "univariante", por lo que no tiene en cuenta la correlación entre variables independientes.

  3. Es fácil manipular (sobreajustar) el efecto de las variables según cómo se creen las categorías

Convencionalmente, las betas de la regresión (en la que la x se ha sustituido por WoE) no se interpretan per se, sino que se multiplican por WoE para obtener una "puntuación" (por ejemplo, la beta de la variable "estado civil" puede multiplicarse por WoE del grupo de "personas casadas" para ver la puntuación de las personas casadas; la beta de la variable "ocupación" puede multiplicarse por WoE de "trabajadores manuales" para ver la puntuación de los trabajadores manuales; entonces, si le interesa la puntuación de los trabajadores manuales casados, sume estas dos puntuaciones y vea cuál es el efecto sobre el resultado). Cuanto mayor sea la puntuación, mayor será la probabilidad de que el resultado sea igual a 1.

10voto

Daniel P. Puntos 6

La razón de utilizar WOE en la regresión logística es generar lo que a veces se denomina clasificador bayesiano semi-nada (SNBC). El principio de esta entrada de blog explica las cosas bastante bien: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Los parámetros beta del modelo son el sesgo lineal de cada efecto ingenuo (también conocido como peso de la evidencia) debido a la presencia de otros predictores y pueden interpretarse como el cambio lineal en las probabilidades logarítmicas de los predictores particulares debido a la presencia de otros predictores.

1voto

Krishna75 Puntos 9

La ponderación de las pruebas (PdE) es una potente técnica de transformación y selección de variables. Se utiliza ampliamente en la calificación crediticia para medir la separación entre buenos y malos clientes (variables). Ventajas Maneja valores perdidos Maneja valores atípicos La transformación se basa en el valor logarítmico de la distribución. No hay necesidad de variables ficticias Utilizando la técnica de binning adecuada se puede establecer una relación monotónica entre el independiente y el dependiente.

mono_bin() = se utiliza para variables numéricas. char_bin() = se utiliza para variables de caracteres.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X