Ejecutamos un modelo de árbol de decisión CHAID utilizando la configuración y el proceso descritos en mi pregunta relacionada. aquí . Utilizamos las puntuaciones de propensión para hacer una predicción. Medimos la predicción al final del año simplemente como real/predicción y obtuvimos una precisión del 95%. Eso fue el año pasado. Este año tenemos una precisión menor, del 80%, pero no está tan mal.
Me estoy poniendo al día con lo que hizo un analista anterior. Pero cuando inspeccioné su modelo me di cuenta de que todo el mundo estaba clasificado igual: "stayer" (parte de un objetivo binario). Las puntuaciones de propensión mínimas y máximas oscilaban entre 0,035 y 0,41. No entiendo por qué el modelo era tan preciso según las mediciones de final de año. Fue estupendo obtener esos resultados, pero no me parece lógico.
PREGUNTA#1 ¿Ha sido casualidad (dos años seguidos)? ¿O hay algo que se me escapa con respecto a los resultados de clasificación de intpretación (matriz de confusión) frente al rendimiento real del modelo?
Puedo publicar un enlace a un archivo .str de SPSS Modeler (y archivos de texto relacionados, todos anonimizados) si alguien quiere verlo.
PREGUNTA#2: La gente que utiliza árboles de decisión para la predicción, ¿utiliza alguna vez simplemente las clasificaciones asignadas (es decir, el número de recuento de la clase objetivo) en lugar de las puntuaciones de propensión? Supongo que si fueran precisas podrían hacerlo (a diferencia de nuestro caso). Pero creo que las puntuaciones de propensión deberían ser mejores en cualquier caso, ¿no?
EDITAR:
Todos se clasifican como 0 ("Stayer")
Esto es lo que entiendo por precisión y cómo se calcula
Esta es una muestra del aspecto de mis datos.