7 votos

Regresión espacial exploratoria: ¿Cómo limitar a los candidatos variable 60?

Quiero realizar una mínimos Cuadrados Ordinarios (MCO) de la regresión (global) o incluso Geográficamente Ponderada (GWR) regresión (local) para identificar las posibles causas de los fenómenos específicos, como la delincuencia.

Tengo alrededor de 60 variable independiente candidatos, que pueden ser explicativas de la variable dependiente.

Para identificar cuáles de estas variables candidatos para el uso en una OLS o modelo GWR, yo uso la herramienta "Exploratorio de Regresión" dentro de ArcGIS. La herramienta permite la Entrada de variable múltiple de los candidatos y el modelo de criterios, intenta todas las combinaciones y las listas de los resultados, que luego pueden ser comparadas en base a la AICc, R2 ajustado, VIF, etc.

Soy consciente de cómo utilizar la herramienta, cómo interpretar los resultados y de cómo el procedimiento general de obras.

Lo que estoy seguro es, cómo limitar mi enorme número de variables de los candidatos? Los cálculos son demasiado tiempo o no conmutable en todos.

Un método sugerido en el sitio Web de ESRI es empezar con un bajo número mínimo y máximo de los candidatos para ser probado, por ejemplo, empezando por el 1, luego el 2, y así sucesivamente. Cuando lo ejecuto con 1 candidato para ser probado, me da un significado de 100% o 0% para cada variable candidato. Si es para 2, tengo muchos diferentes valores de porcentaje. Si esas bajas por ejemplo, el 50% se quitan, debería ejecutar el modelo nuevo de 2 candidatos probados o ya por 3? No parecen ser diferentes de los resultados. ¿Hay algún límite que podría ser utilizado?

8voto

Farid Cher Puntos 5306

Parece que usted está haciendo la investigación. Aquí están algunos consejos:

  1. Pregunte a los expertos de dominio: si usted pregunta a un experto acerca de la exploratorio de las variables, él/ella puede filtrar fácilmente muchas de las variables debido a su irrelevancia para la respuesta. Si usted no tiene acceso a un experto, a continuación, una revisión de la literatura.
  2. El uso de la PCA (análisis de componentes principales): PCA es un tipo de análisis que busca la correlación entre su exploratorio de las variables. Luego se extrae pocos (2-3 o más) número de variables que dan cuenta de la varianza de todos los exploratorio de variables aleatorias. También se caracteriza por la cantidad de contribución de las variables a un determinado componente principal. Tenga en cuenta que en ArcGIS PCA es parte de la spatial analyst y se pueden aprovechar con sólo datasets ráster. Sin embargo, usted puede recurrir a otro software estadístico, tales como la investigación o incluso de python.

6voto

Dan Puntos 16

De regresión paso a paso es generalmente un imprudente enfoque, aunque comúnmente utilizados y publicados. Para el apoyo a la inferencia, la evaluación de compatibilidad con el modelo y el ajuste del modelo, la lata de ArcGIS herramientas no son una buena plataforma para la especificación de un modelo estadístico. Una talla se adapta a todas enfoque para ajustar modelos de regresión no es nunca una buena idea.

El mensaje sobre las flaquezas de regresión paso a paso está siendo empujado por algunos de los actuales grandes en estadística y biometría (Harrell, Bolker, Bivand, Cressie, Hastie, Friedman, ...). Creo que estas limitaciones se aplican igualmente a paulatino de la AIC, porque es un delantero procedimiento de selección. Tenga en cuenta que la intención original detrás de la AIC fue la prueba de hipótesis, el uso de los modelos de la competencia, no la selección de características.

Algunos de los problemas identificados con el paso a paso enfoques son:

  • El r-cuadrado de valores se manifiesta en relación a la población de la muestra
  • La prueba estadística no conservan la correcta distribución (F, chi-cuadrado) lo que se traduce en una deflación de los valores de p y estándar errores.
  • Correcciones de Bonferroni son demasiado conservador
  • Los coeficientes de regresión son más parciales y marginales de las variables son más propensos a ser incluido si el coeficiente es sobrevalorado y excluidos si subestimado.
  • La eliminación de "insignificante" variables de conjuntos de sus coeficientes a cero, que puede ser inverosímil.

El consejo general es el ajuste de un modelo completo, sólo quitar parámetros, si α > 0.5, si el signo (+/-) no es sensible o si un coeficiente de 0 es plausible. Uno debe tomar en cuenta la colinealidad mediante la combinación de variables (a través de la función matemática o de la PCA de reducción).

Si uno realmente necesita para reducir el espacio de parámetros (por ejemplo,., para la estimación de los efectos), a continuación, un paso hacia abajo (hacia atrás de selección) es muy recomendable. Hacia atrás la eliminación métodos pueden ser implementados en R usando el "fastbw" función en el "rms" de la biblioteca. Como recomiendan por @whuber, yo recomiendo explorar un LAZO de regresión. Si usted se siente cómodo dejando que los datos se ajustan al modelo, se podría implementar un Modelo Bayesiano un Promedio de enfoque. Una Metropolis Hastings algoritmo es una buena opción cuando el espacio de parámetros es grande. El R paquetes "BMA" y "BMS" tiene bastante simple implementaciones para el Modelo Bayesiano de Selección.

Aquí es un simple método, implementado en R, para la selección de parámetro(s) con un p < 0,05, utilizando un modelo lineal generalizado. Esto podría ser utilizado para eliminar falsos variables independientes. Sería fácil adaptar esto para un mínimos Cuadrados Ordinarios, pero, en general, en este caso, me gustaría utilizar una máxima verosimilitud. Yo creo que en esto como en más de una agarrar la bolsa enfoque de paso a paso. Sin embargo, me gustaría evaluar el parámetro(s) coefficents antes de la aplicación de un sistema automático de selección de procedimiento como este.

Crear algunos datos de ejemplo con una muy significativa la variable (x4)

x1 <- rnorm(10); x2 <- rnorm(10); x3 <- rnorm(10)
y <- rnorm(10)
x4 <- y + 5 
( dat <- as.data.frame(cbind(x1,x2,x3,x4,y)) )

Especificar un Modelo Lineal Generalizado (GLM)

model <- glm(y ~ x1 + x2 + x3 + x4, data = dat) 
  round(summary(model)$coeff, 4)

El uso de p-valor de la prueba t para seleccionar compatible parámetro(s)

( sel.x <- summary(model)$coeff[-1,4] < 0.05 ) 
( sig.x <- names(sel.x)[sel.x == TRUE] ) 

Especificar el nuevo GLM con los parámetros seleccionados

sig.model <- glm(reformulate(sig.x, response="y"), data = dat)
  round(summary(sig.model)$coeff, 4)

round(anova(model, sig.model),4)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X