2 votos

Análisis exploratorio de datos. ¿Qué características son importantes?

Estoy tratando de ajustar el número de delitos en una ciudad con algunas variables ambientales (es decir, mis características). Estoy usando un modelo de Poisson/Binomio Negativo ya que tengo datos de conteo. Los problemas son:

  1. seleccionar las características que realmente encajan (a veces tengo una gran colinealidad)
  2. seleccionar el subconjunto más pequeño de características significativas (valores p)
  3. entender la importancia relativa entre ellos para encajar el número de delitos

Posibles soluciones a los problemas:

  1. Factor de inflación de la varianza (VIF). ¿Está bien? A veces las interacciones pueden ser ignoradas. Quiero decir: ¿qué pasa si tengo que hacer pruebas cuando dos variables son importantes, pero colineales? (por ejemplo, la densidad de población y la densidad de empleo)
  2. Pasos escalonados (hacia atrás/hacia delante/con validación cruzada) para reducir el AIC. Sin embargo, Esto no significa que las variables resultantes sean significativas (valores p). ¿Debo preocuparme por los valores p de las características?
  3. Estandarizar los datos de entrada, luego mirar el coeficiente Beta para ver la importancia de ellos. ¿Es realmente la mejor manera?

¿Debo usar otra cosa? Tenga en cuenta que mi objetivo principal no es el $R^2$ . Quiero ver y poder explicar cómo algunas variables podrían explicar el crimen.

-1voto

Sarah Puntos 6

En primer lugar, el Factor de Inflación de la Varianza es inversamente proporcional al $R^2$ valor. Así que comprobar esto podría ayudar, pero la multicolinealidad es algo que hay que mirar.

En segundo lugar, en lugar de $R^2$ , ajustado $R^2$ es una mejor manera de validar un modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X