12 votos

La regresión logística análisis de los residuos

Esta pregunta es una especie de general y de largo aliento, pero por favor tengan paciencia conmigo.

En mi aplicación tengo muchos conjuntos de datos, cada uno compuesto de ~20,000 puntos de datos con ~50 características y un solo dependiente de la variable binaria. Yo estoy intentando modelo de los conjuntos de datos de uso de regularización de la regresión logística (paquete de R glmnet)

Como parte de mi análisis, he creado gráficos de residuos de la siguiente manera. Para cada característica, ordenar los puntos de datos según el valor de esa característica, se dividen los puntos de datos en 100 cubos, y luego calcular el promedio del valor de salida y el promedio de valor de predicción dentro de cada cubo. Yo parcela estas diferencias.

Aquí es un ejemplo residual de la parcela:

En la mencionada trama, la función tiene un rango de [0,1] (con una gran concentración en la 1). Como se puede ver, cuando la función de valor es bajo, el modelo parece estar sesgados hacia la sobreestimación de la probabilidad de un 1-salida. Por ejemplo, en el cubo de la izquierda, el modelo sobreestima la probabilidad de alrededor del 9%.

Armado con esta información, me gustaría modificar la definición de la característica de una manera directa a aproximadamente corregir este sesgo. Alteraciones como la sustitución de

$x \rightarrow \sqrt{x}$

o

$x \rightarrow f_a(x) = \cases{a & if $x<$ \cr x & else}$

¿Cómo puedo hacer esto? Estoy buscando una metodología general para que un humano podría desplazarse rápidamente a través de todos los ~50 parcelas y hacer alteraciones, y hacer esto para todos los conjuntos de datos y repetir a menudo para mantener a los modelos de arriba-a-fecha de los datos que evoluciona con el tiempo.

Como una cuestión general, esto es incluso el enfoque correcto? Las búsquedas de Google para "regresión logística análisis de los residuos" no retorno de muchos de los resultados con un buen asesoramiento práctico. Ellos parecen estar empeñados en responder a la pregunta, "¿Es este el modelo de un buen ajuste?", y ofrecen varias pruebas como la de Hosmer-Lemeshow para responder. Pero no me importa si mi modelo es bueno, quiero saber cómo hacer mejor!

4voto

Realmente no se puede evaluar el sesgo de esa manera en la regresión logística. Logisitic de regresión se espera que para ser imparcial en las probabilidades de registro o logit puntuaciones, log(p/(1-p)). Las proporciones serán sesgadas y, por tanto, la mirada sesgada. Usted necesita para graficar los residuos en términos de las probabilidades de registro.

2voto

patfla Puntos 1

no es probable que exista cualquier software general para hacer esto. lo más probable porque no hay ninguna teoría general para la solución de problemas en la regresión. por lo tanto, esta es más de un "lo que yo haría" tipo de respuesta, en vez de un fundados en la teoría procedimiento.

la trama se produce es básicamente visual HL prueba con 100 contenedores de basura, pero el uso de un solo predictor en lugar de la predicción de la probabilidad de hacer el binning. esto significa que su procedimiento es probable que heredan algunas de las propiedades de la impresora HL prueba.

el procedimiento parece razonable, aunque usted debe ser consciente de "sobreajuste" sus criterios. los criterios también es menos útil como diagnóstico porque se ha convertido en parte del proceso de estimación. también, cada vez que haces algo por intuición, usted debe escribir su proceso de toma de decisiones en tanto detalle como sea práctico. esto es porque usted puede descubrir las semillas de un proceso general o teoría, que cuando se desarrolla conduce a un mejor procedimiento (más automática y óptima con respecto a la teoría).

creo que una forma de ir es en primer lugar, reducir el número de parcelas que usted necesita para investigar. una manera de hacer esto es para que se ajuste a cada variable como un spline cúbico, y luego investigar las parcelas que tienen distinto de cero no lineal de las estimaciones. dado el número de puntos de datos esta es también una fácil corrección automática para no linearities. esto ampliará su modelo de 50 a 200+50 k, donde k es el número de nudos. se podría pensar en esto como la aplicación "estadística expansión en series de taylor" de la "verdadera" transformación.

si el diagnóstico de imágenes fijas se ve mal después de esto, entonces me gustaría probar la adición de los términos de interacción.

partes de la pregunta parece más acerca de la escritura de un programa interactivo, que es más el dominio de stackoverflow que aquí. también puede ser útil para la búsqueda exploratoria de herramientas de análisis de datos, ya que estos son más propensos a tener las características que puede "piggy back".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X