5 votos

La regresión logística se pone mejor, pero la clasificación se pone peor?

Actualmente estoy haciendo un análisis de mi Tesis de Maestría y encontrado algunos resultados que no puedo explicar.

En mi papel, yo estoy tratando de explorar los factores que deciden si la gente se unió a un local de la iniciativa de energía o no. Desde que tengo un montón de diferentes variables, a mi instructor propuso un modelo de enfoque de construcción. Concretamente, voy a añadir conjuntos de predictores para mi la regresión logística y mantener sólo aquellos que son significativos en el modelo, antes de añadir el siguiente juego. Para evaluar el ajuste del modelo, me dijeron que el uso de tablas de clasificación.

Mi problema ahora es el siguiente:

Voy a empezar con un conjunto de dummies para el control de los participantes, provenientes de diferentes barrios. Este modelo básico clasifica el 56% de los casos correctamente. Ahora añado el segundo conjunto de predictores y algunos de ellos son significativos, por lo que mantener los del modelo. Si yo ahora uso la tabla de clasificación de nuevo, mi clasificación se puso peor. Incluso peor que la oportunidad! (48%).

¿Cómo puedo encontrar predictores significativos pero mi modelo empeora de oportunidad?

EDITAR PARA INFORMACIÓN ADICIONAL:

Mi conjunto de datos compuesto de 636 casos. 318 son partícipes de la iniciativa, 318 no son partícipes. Los conjuntos de variables que uso están estructurados de la siguiente manera:

1) "Control": la Gente viene desde el 30 de distintos barrios, así que he añadido el 29 de variables ficticias para controlar por diferencias debido a la vecindad de afiliación (no es el mejor enfoque, lo sé, pero estoy siguiendo las órdenes de éste)

2) Los predictores: 15 demográficos y las variables psicológicas

3) Evaluación de predictores de grupo: 8 variables que miden cómo los individuos perciben el grupo de potenciales partícipes

He utilizado las tablas de clasificación en los mismos datos que he utilizado para la construcción del modelo, por desgracia solo tengo esto un conjunto de datos y estoy tratando de averiguar que los predictores más prometedores para el futuro (causational) de investigación.

6voto

EdM Puntos 5716

Con 318 casos en cada grupo se puede examinar de cerca de 20 predictores sin demasiado riesgo de sobreajuste. El segundo y el tercer set de variables se combinan para 23; el gran problema es contar cada uno de sus barrios en conjunto de variables 1 como un efecto fijo, con otro 29 grados de libertad.

La más simple solución a corto plazo podría ser para el tratamiento de barrios como el de efectos aleatorios en lugar de como efectos fijos en la regresión logística, utilizando por ejemplo el glmer función en el R lme4 paquete. Que toma en cuenta las diferencias entre los barrios, como le han indicado, pero sólo utiliza hasta 1 grado de libertad en el análisis como son el modelado de la distribución de los efectos entre los vecindarios más que el individuo efectos vecindario. Que podría permitir a un análisis directo de todas las otras variables en un modelo único, sin los peligros de la selección paso a paso. LAZO sin duda sería una forma útil para seleccionar entre el resto de los predictores si es necesario.

También, sin embargo, debe estar abierto a la posibilidad de que los predictores se mide no guarda relación con la elección de participación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X