18 votos

¿Por qué el Mínimo de Cuadrados Ordinarios está funcionando mejor que la regresión de Poisson?

Estoy tratando de ajustar una regresión para explicar el número de homicidios en cada distrito de una ciudad. Aunque sé que mis datos siguen una distribución de Poisson, intenté ajustar un OLS así:

$log(y+1) = \alpha + \beta X + \epsilon $

Luego, también intenté (¡por supuesto!) una regresión de Poisson. El problema es que obtuve mejores resultados en la regresión OLS: el pseudo-$R^2$ es más alto (0.71 vs 0.57) y también el RMSE (3.8 vs 8.88. Estandarizado para tener la misma unidad).

¿Por qué? ¿Es normal? ¿Qué está mal en usar el OLS sin importar cuál sea la distribución de los datos?

edición Siguiendo las sugerencias de kjetil b halvorsen y otros, ajusté los datos a través de dos modelos: OLS y GLM de Binomial Negativo (NB). Comencé con todas las características que tengo, luego eliminé de forma recursiva una por una las características que no eran significativas. OLS es

$\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon $

con pesos = $area$.

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

El NB predice el número de crímenes, con el área del distrito como desplazamiento.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

Residuos de OLS:

enter image description here

Residuos de NB

enter image description here

Entonces, el RMSE es más bajo en el OLS, pero parece que los residuos no son tan normales....

0 votos

¿Puedes publicar más detalles? ¿Cuál es la naturaleza de los datos? es decir, ¿qué está contando la variable de respuesta? ¿cuáles son las variables explicativas?

0 votos

@kjetilbhalvorsen la variable dependiente es el número de homicidios por distrito (112 distritos). Las variables independientes son las características estructurales de la ciudad (intersecciones de calles, puntos de interés, etc.)

0 votos

¿Cómo estás calculando el pseudo $R^2$ para cada modelo?

16voto

John Richardson Puntos 1197

Sospecho que parte del problema puede estar en tu elección de métrica de rendimiento. Si mides el rendimiento de la prueba utilizando el RMSE, entonces entrenar el modelo para minimizar el MSE coincide con el criterio de prueba, dando una pista sobre lo que se considera importante. Puede que descubras que si mides el rendimiento de la prueba utilizando el logaritmo negativo de la verosimilitud del conjunto de pruebas utilizando una verosimilitud de Poisson, el modelo de Poisson funciona mejor (como se esperaría). Esto puede ser un problema menor en comparación con los otros problemas planteados, pero podría ser una útil comprobación de cordura.

1 votos

+1. ¡Si el objetivo del OP era la predicción, podría haber una razón válida para usar un modelo OLS en su lugar! No obstante, la inferencia clásica basada en errores que surge del OLS no se puede/debe aplicar en los GLM. Uno podría inspeccionar los residuos estandarizados, o una mejor opción sería comparar modelos con AIC.

11voto

kjetil b halvorsen Puntos 7012

En primer lugar, con tales datos esperaría sobre-dispersión (si no sabes qué es eso, consulta https://stats.stackexchange.com/search?q=what+is+overdispersion%3F).

Eso tendría que abordarse con un glm de Poisson, pero no es un problema con la regresión lineal habitual. Como se mencionó en un comentario, con un glm de Poisson deseas incluir $\log(\text{TamañoDistrito})$ como un offset, con una regresión lineal necesitarás utilizar como variable de respuesta $\frac{\text{Nr. homicidios}}{\text{Tamaño Distrito}}$. Una posible razón para la discrepancia de resultados es que has tratado este problema de manera diferente en los dos casos. Podrías publicar aquí algunos gráficos de resultados, como gráficos residuales, para que podamos ver qué está sucediendo. O podrías publicar tus datos como una tabla en la publicación original... podría ser interesante echar un vistazo.

Otro problema es la transformación que utilizaste con la regresión lineal. La transformación típica de estabilización de la varianza utilizada con datos de conteo es la raíz cuadrada, no el logaritmo.

Otro problema es la elección de la transformación utilizada con la regresión lineal. Cuando utilizas como respuesta $Y_i/x_i$, necesitarás una regresión lineal ponderada. Suponiendo como aproximación que $Y_i \sim \text{Poisson}(\lambda x_i)$, tenemos $$ \DeclareMathOperator{\E}{\mathbb{E}} \DeclareMathOperator{\V}{\mathbb{V}} \E \frac{Y_i}{x_i} \propto \lambda \\ \V \frac{Y_i}{x_i} \propto x_i^{-1} $$ Por lo tanto, deberías utilizar una regresión lineal ponderada con $x_i$ como peso. Un análisis simple muestra que, como aproximación, los mismos pesos son apropiados con $\sqrt{Y_i/x_i}$ o $\log (Y_i/x_i +1)$ como respuestas.

    EDICIÓN

Respecto a tu análisis adicional en la publicación, debes tener en cuenta que los rmse no pueden compararse directamente entre los dos modelos, ¡ya que se utilizan respuestas diferentes! Para hacer una comparación directa, deberás retro-transformar los valores predichos a la escala original. Luego puedes calcular los rmse tú mismo y ver. Pero ten en cuenta que las predicciones obtenidas después de la retro-transformación pueden estar sesgadas debido a no linealidades. Por lo tanto, algún ajuste a las predicciones retro-transformadas podría hacerlas más útiles. En algunos casos, esto se puede calcular teóricamente, o podrías simplemente usar un bootstrap.

0 votos

Ajusté los modelos como sugeriste, aunque en realidad no entendí la razón detrás del WLS. ¿Qué opinas?

6voto

Cliff AB Puntos 3213

Hay muchas opciones de pseudo $R^2$. Muchos de ellos son muy defectuosos. En general, generalmente no hay razón para que el $R^2$ producido por OLS sea un valor comparable a un pseudo $R^2$ dado; más bien, los pseudo $R^2$ suelen usarse para comparar modelos de la misma familia distribucional.

2voto

TrynnaDoStat Puntos 3590

Es cierto que tus datos no siguen una distribución normal (supongo que por eso también ejecutaste una regresión de Poisson) pero tus datos probablemente tampoco siguen una distribución de Poisson. La distribución de Poisson asume que la media y la varianza son iguales, lo cual probablemente no es el caso (como se menciona en otras respuestas, puedes capturar esta discrepancia e incorporarla en el modelo). Dado que tus datos no se ajustan perfectamente a ninguno de los dos modelos, tiene sentido que OLS pueda funcionar mejor.

Otra cosa a tener en cuenta es que las estimaciones de mínimos cuadrados ordinarios son robustas a la falta de normalidad, lo que puede ser la razón por la que estás obteniendo un modelo razonable. El Teorema de Gauss-Markov nos dice que las estimaciones de coeficientes de OLS son los mejores estimadores lineales no sesgados (BLUE, por sus siglas en inglés) en términos de error cuadrático medio bajo las siguientes suposiciones,

  • Los errores tienen una media de cero
  • Las observaciones no están correlacionadas
  • Los errores tienen una varianza constante

No hay suposición de normalidad aquí, ¡así que tus datos pueden ser perfectamente adecuados para este modelo! Dicho esto, te recomendaría investigar un modelo de Poisson con un parámetro de sobredispersión incluido, y deberías obtener mejores resultados.

0 votos

@TynnaDoStat ¡Gracias! Ahora ajusté dos modelos, uno con parámetro de dispersión. ¿Qué piensas?

2 votos

La varianza = media para una distribución de Poisson a menudo se menciona como una suposición problemática para la regresión de Poisson, pero el punto no es tan difícil como se implica aquí. A pesar de su nombre, la idea principal de la regresión de Poisson es la de una función de enlace logarítmico; las suposiciones sobre la distribución condicional no son tan importantes. Lo que es probable si las suposiciones no se cumplen todas es principalmente que los errores estándar están desviados a menos que se ajusten, pero el ajuste tendrá sentido con frecuencia.

2 votos

De hecho, la regresión de Poisson puede tener sentido para respuestas medidas no negativas donde la varianza y la media ni siquiera tienen las mismas dimensiones. Consulte por ejemplo blog.stata.com/2011/08/22/…

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X