Estoy tratando de ajustar el número de delitos en una ciudad con algunas variables ambientales (es decir, mis características). Estoy usando un modelo de Poisson/Binomio Negativo ya que tengo datos de conteo. Los problemas son:
- seleccionar las características que realmente encajan (a veces tengo una gran colinealidad)
- seleccionar el subconjunto más pequeño de características significativas (valores p)
- entender la importancia relativa entre ellos para encajar el número de delitos
Posibles soluciones a los problemas:
- Factor de inflación de la varianza (VIF). ¿Está bien? A veces las interacciones pueden ser ignoradas. Quiero decir: ¿qué pasa si tengo que hacer pruebas cuando dos variables son importantes, pero colineales? (por ejemplo, la densidad de población y la densidad de empleo)
- Pasos escalonados (hacia atrás/hacia delante/con validación cruzada) para reducir el AIC. Sin embargo, Esto no significa que las variables resultantes sean significativas (valores p). ¿Debo preocuparme por los valores p de las características?
- Estandarizar los datos de entrada, luego mirar el coeficiente Beta para ver la importancia de ellos. ¿Es realmente la mejor manera?
¿Debo usar otra cosa? Tenga en cuenta que mi objetivo principal no es el $R^2$ . Quiero ver y poder explicar cómo algunas variables podrían explicar el crimen.