Esta pregunta es una especie de general y de largo aliento, pero por favor tengan paciencia conmigo.
En mi aplicación tengo muchos conjuntos de datos, cada uno compuesto de ~20,000 puntos de datos con ~50 características y un solo dependiente de la variable binaria. Yo estoy intentando modelo de los conjuntos de datos de uso de regularización de la regresión logística (paquete de R glmnet)
Como parte de mi análisis, he creado gráficos de residuos de la siguiente manera. Para cada característica, ordenar los puntos de datos según el valor de esa característica, se dividen los puntos de datos en 100 cubos, y luego calcular el promedio del valor de salida y el promedio de valor de predicción dentro de cada cubo. Yo parcela estas diferencias.
Aquí es un ejemplo residual de la parcela:
En la mencionada trama, la función tiene un rango de [0,1] (con una gran concentración en la 1). Como se puede ver, cuando la función de valor es bajo, el modelo parece estar sesgados hacia la sobreestimación de la probabilidad de un 1-salida. Por ejemplo, en el cubo de la izquierda, el modelo sobreestima la probabilidad de alrededor del 9%.
Armado con esta información, me gustaría modificar la definición de la característica de una manera directa a aproximadamente corregir este sesgo. Alteraciones como la sustitución de
$x \rightarrow \sqrt{x}$
o
$x \rightarrow f_a(x) = \cases{a & if $x<$ \cr x & else}$
¿Cómo puedo hacer esto? Estoy buscando una metodología general para que un humano podría desplazarse rápidamente a través de todos los ~50 parcelas y hacer alteraciones, y hacer esto para todos los conjuntos de datos y repetir a menudo para mantener a los modelos de arriba-a-fecha de los datos que evoluciona con el tiempo.
Como una cuestión general, esto es incluso el enfoque correcto? Las búsquedas de Google para "regresión logística análisis de los residuos" no retorno de muchos de los resultados con un buen asesoramiento práctico. Ellos parecen estar empeñados en responder a la pregunta, "¿Es este el modelo de un buen ajuste?", y ofrecen varias pruebas como la de Hosmer-Lemeshow para responder. Pero no me importa si mi modelo es bueno, quiero saber cómo hacer mejor!