Estoy tratando de estimar un modelo de regresión de Poisson. Mi conjunto de datos abarca 78 barrios de una ciudad, a lo largo de 11 años, y se ha extraído de múltiples fuentes: la variable dependiente (un recuento de delitos para cada combinación de barrio-año) tiene observaciones reales para todos los años, pero todas las variables independientes tienen observaciones sólo para tres años (año 2, año 6 y año 10). Esto me ha llevado a copiar y pegar sus valores para "rellenar" lo que falta. Obtengo resultados creíbles cuando realizo la regresión sin utilizar los efectos fijos de vecindario, pero cuando los utilizo, las estimaciones se vuelven extremadamente contraproducentes, y su significación disminuye drásticamente. Las estimaciones de los efectos fijos en sí son muy significativas y parecen mal estimadas, tanto por su signo como por su tamaño. Creo que esto puede deberse a la falta de varianza en las variables dependientes, algo así como "la variable dependiente varía a lo largo de los años, las variables explicativas no, por lo tanto estos cambios deben provenir de características no observadas". ¿Estoy en lo cierto?
Respuesta
¿Demasiados anuncios?Sus estimaciones "altamente significativas" probablemente no lo sean. Después de todo, cualquier El enfoque para inferir predictores desconocidos (está copiando, lo que podría ser relleno hacia adelante o relleno hacia atrás) está cargado de incertidumbre - pero su regresión de Poisson no lo sabe.
Te recomiendo que intentes incorporar esta incertidumbre en tus estimaciones de los parámetros. Como mínimo, debería probar diferentes formas de inferir sus predictores desconocidos, como la interpolación de relleno hacia delante, relleno hacia atrás, lineal o spline.
Mejor aún: haga un bootstrap de todo el procedimiento. Realice un bootstrap de los datos originales y, a continuación, aplique el algoritmo de inferencia que desee utilizar en los datos de la prueba de arranque y luego estimar la regresión de Poisson y guardar las estimaciones de los parámetros. Sospecho que saldrán mucho más variables de lo que sugiere tu enfoque original.
Por último, utilice los promedios de estas estimaciones de parámetros bootstrap y compruebe cuántas de ellas están a un lado de cero para obtener una medida de significación bootstrap.