Para el recuento de los datos que he recogido, yo uso de regresión de Poisson para construir modelos. Puedo hacer esto usando el glm
función en R, donde utilizo family = "poisson"
. Para evaluar los posibles modelos (tengo varios predictores) yo uso el AIC. Hasta ahora tan bueno. Ahora quiero realizar la validación cruzada. Ya he conseguido hacer esto usando el cv.glm
función de la boot
paquete. A partir de la documentación de cv.glm
veo que, por ejemplo, para binomio de datos que usted necesita para utilizar un determinado función de costo para obtener un significativo error de predicción. Sin embargo, no tengo idea todavía de lo función de costo es apropiado para family = poisson
, y una extensa búsqueda de Google no dió ningún resultado específico. Mi pregunta es alguien tiene un poco de luz a derramó sobre que función de costo es apropiado para cv.glm
en el caso de poisson glm.
Respuesta
¿Demasiados anuncios?Suponiendo nada especial en su caso particular, creo que no es un buen argumento para utilizar el valor predeterminado (Mean Square Error) o el uso de la media del error de los registros, o incluso el test de la chi-cuadrado del error.
El propósito de la función de costo es expresar como "molesto" que son con las predicciones erróneas, específicamente lo "incorrecto" le molesta más. Esto es particularmente importante para los binarios de las respuestas, pero puede importar en cualquier situación.
Error cuadrático medio (de respuestas)
$C = \frac{1}{n}\sum_i (Y_i-\hat Y_i)^2$
Mediante el MSE que son igualmente sensibles a los errores de arriba y de abajo y igualmente sensible para pequeñas y grandes predicciones. Este es un bonito estándar cosa que hacer, y no creo que sería mal visto en la mayoría de las situaciones.
Error cuadrático medio (de registro de las respuestas)
$C = \frac{1}{n}\sum_i (\ln Y_i-\ln \hat Y_i)^2$
Debido a que se trabaja con datos de conteo, se podría argumentar que no son simétricas ni el tamaño indiferente. Siendo por 10 cuenta con una predicción de 10 es muy diferente de una predicción de 1000. Esta es una especie de "canónica" de la función de costo, debido a que han cumplido con los costos de la función de enlace. Esto asegura que los costos coincide con la varianza de la distribución que se asume en el modelo.
Chi-Squared Error
$C = \frac{1}{n}\sum_i \frac{(Y_i-\hat Y_i)^2}{\hat Y_i}$
Una tercera forma sería utilizar el test de la chi-cuadrado del error. Esto podría ser particularmente atractivo si usted está comparando su GLM para otros recuento basado en modelos - especialmente si hay factores en su GLM. Similar a la de error de registro de respuestas, esta escala con el tamaño, pero es simétrica alrededor de la predicción de la cuenta. Usted actualmente está evaluando la bondad de ajuste basado en el porcentaje de error.
En El Discreto
La cuestión de la cites la documentación de ejemplo donde se tiene una variable respuesta binaria, a fin de utilizar una diferente función de costo. El problema para una respuesta binaria es que el GLM hará una previsión de un número real entre 0 y 1, aunque la respuesta es siempre exactamente 0 o 1. Es perfectamente válido decir que más que el número es la respuesta correcta, el mejor es el pronóstico, pero a menudo la gente no quiere que este. El razonamiento es que a menudo deben actuar como si es 0 o 1, por lo que tendrá nada menos que 0,5 como una previsión de 0. En ese caso, tiene sentido simplemente para contar el número de "malo" de las previsiones. El argumento aquí es que para que una pregunta de Verdadero/Falso que sólo puede ser correcta o incorrecta - no hay gradación de falsedad.
En tu caso, tienes los datos de recuento. Aquí es mucho más común aceptar las predicciones de que no están en el mismo soporte como la respuesta. Una predicción de 2.4 hijos por familia, por ejemplo, o 9.7 muertes por año. Generalmente uno no debería tratar de hacer algo acerca de esto porque no se trata de ser "correcto" o "equivocado", tan cerca como usted puede conseguir. Si usted realmente tiene que tener una predicción que es un número entero, aunque, tal vez porque tiene una muy baja tasa de conteo, entonces no hay ninguna razón usted no puede ronda de la predicción de la primera y contar el "número entero" o de error. En este caso, las tres expresiones anteriores siguen siendo válidas, pero usted simplemente necesita para redondear $\hat Y$ primera.