Gracias por la interesante pregunta.
La diferencia: Una limitación de los modelos de recuento estándar es que se supone que los ceros y los no ceros (positivos) proceden del mismo proceso de generación de datos. Con los modelos de vallas Estos dos procesos no están obligados a ser los mismos. La idea básica es que una probabilidad Bernoulli gobierna el resultado binario de si una variante de recuento tiene una realización cero o positiva. Si la realización es positiva, se cruza el obstáculo, y la distribución condicional de los positivos se rige por un modelo de datos de recuento truncado en cero. Con los modelos de inflación cero la variable de respuesta se modela como una mezcla de una distribución Bernoulli (o llámese masa puntual en cero) y una distribución Poisson (o cualquier otra distribución de recuento soportada en enteros no negativos). Para más detalles y fórmulas, véase, por ejemplo, Gurmu y Trivedi (2011) y Dalrymple, Hudson y Ford (2003).
Ejemplo: Los modelos de obstáculos pueden estar motivados por los procesos secuenciales de toma de decisiones a los que se enfrentan los individuos. Primero se decide si se necesita comprar algo, y luego se decide la cantidad de ese algo (que debe ser positiva). Cuando se le permite (o puede potencialmente) no comprar nada después de su decisión de comprar algo es un ejemplo de una situación en la que el modelo con ceros es apropiado. Los ceros pueden provenir de dos fuentes: a) no se ha decidido comprar; b) se ha querido comprar pero se ha terminado por no comprar nada (por ejemplo, por falta de existencias).
Beta: El modelo de obstáculos es un caso especial del modelo de dos partes descrito en el capítulo 16 de Frees (2011). Allí veremos que, en los modelos de dos partes, la cantidad de asistencia sanitaria utilizada puede ser una variable continua además de una variable de recuento. Por lo tanto, lo que se ha denominado de forma un tanto confusa "distribución beta cero-inflada" en la literatura pertenece, de hecho, a la clase de distribuciones y modelos de dos partes (tan comunes en la ciencia actuarial), lo que es coherente con la definición anterior de un modelo de obstáculos. Este excelente libro analiza los modelos de inflación cero en la sección 12.4.1 y los modelos de obstáculos en la sección 12.4.2, con fórmulas y ejemplos de aplicaciones actuariales.
La historia: Los modelos de Poisson con inflación cero (ZIP) sin covariables tienen una larga historia (véase, por ejemplo, Johnson y Kotz, 1969). La forma general de los modelos de regresión ZIP que incorporan covariables se debe a Lambert (1992). Los modelos Hurdle fueron propuestos por primera vez por el estadístico canadiense Cragg (1971), y posteriormente desarrollados por Mullahy (1986). También se puede considerar Croston (1972), donde se utilizan recuentos geométricos positivos junto con el proceso Bernoulli para describir un proceso de valor entero dominado por ceros.
R: Por último, si utiliza R, hay paquete pscl para "Clases y métodos para R desarrollados en el Laboratorio de Computación de Ciencias Políticas" de Simon Jackman, que contiene las funciones hurdle() y zeroinfl() de Achim Zeileis.
Para ello se han consultado las siguientes referencias:
- Gurmu, S. & Trivedi, P. K. Excess Zeros in Count Models for Recreational Trips Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distribuciones en estadística: Distribuciones Discretas. 1969, Houghton MiZin, Boston
- Lambert, D., Zero-inflated Poisson regression with an application to defects in manufacturing. Technometrics, 1992, 34 (1), 1-14.
- Cragg, J. G. Some Statistical Models for Limited Dependent Variables with Application to the Demand for Durable Goods Econometrica, 1971, 39, 829-844
- Mullahy, J. Especificación y prueba de algunos modelos de datos de recuento modificados Journal of Econometrics, 1986, 33, 341-365
- Frees, E. W. Regression Modeling with Actuarial and Financial Applications Cambridge University Press, 2011
- Dalrymple, M. L.; Hudson, I. L. & Ford, R. P. K. Modelos de mezcla finita, Poisson inflado a cero y Hurdle con aplicación a SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
- Croston, J. D. Previsión y control de existencias para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303