4 votos

Variables ficticias de escala en la regresión logística

Digamos que tengo un conjunto de datos que mezcla características categóricas y continuas y me gustaría estudiar la importancia relativa de cada característica en la predicción de una cierta clase.

Para eso estoy usando la regresión logística con una penalización de l1 porque quiero una solución dispersa que maximice el ROCAUC.

Antes de entrenar la regresión logística, primero creé variables ficticias para mis características categóricas y centré y escalé todas mis características, incluyendo las variables ficticias que he creado.

¿Puedo centrar y escalar las variables ficticias? Porque quiero comparar los coeficientes de la regresión logística entrenada en el conjunto de datos para clasificar las características.

¡Gracias por la ayuda!

9voto

dan90266 Puntos 609

AUROC ( $c$ -índice; probabilidad de concordancia, la de Somers $D_{xy}$ correlación de rango) no es un objetivo válido para la optimización. Es engañado por un modelo terriblemente mal calibrado y es ineficiente. La estimación de máxima verosimilitud existe por una razón: la optimización de la función de logaritmo de verosimilitud da como resultado propiedades óptimas de los estimadores.

Y no escale las variables indicadoras. Esto añade confusión a la interpretación de los coeficientes.

No clasifiquen los rasgos a menos que acompañen esto con intervalos de confianza para los rangos. Encontrará que las medidas de importancia variable son volátiles. Los datos no tienen suficiente información para decirte qué características de los datos son más importantes. Esto es aún más cierto cuando los predictores están correlacionados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X