120 votos

¿Cuál es la diferencia entre los modelos de inflación cero y los de obstáculos?

Me pregunto si existe una diferencia clara entre las denominadas distribuciones (modelos) de inflación cero y las denominadas distribuciones (modelos) de umbral a cero. Los términos aparecen con bastante frecuencia en la literatura y sospecho que no son lo mismo, pero ¿podría explicarme la diferencia en términos sencillos?

122voto

Guy Puntos 2102

Gracias por la interesante pregunta.

La diferencia: Una limitación de los modelos de recuento estándar es que se supone que los ceros y los no ceros (positivos) proceden del mismo proceso de generación de datos. Con los modelos de vallas Estos dos procesos no están obligados a ser los mismos. La idea básica es que una probabilidad Bernoulli gobierna el resultado binario de si una variante de recuento tiene una realización cero o positiva. Si la realización es positiva, se cruza el obstáculo, y la distribución condicional de los positivos se rige por un modelo de datos de recuento truncado en cero. Con los modelos de inflación cero la variable de respuesta se modela como una mezcla de una distribución Bernoulli (o llámese masa puntual en cero) y una distribución Poisson (o cualquier otra distribución de recuento soportada en enteros no negativos). Para más detalles y fórmulas, véase, por ejemplo, Gurmu y Trivedi (2011) y Dalrymple, Hudson y Ford (2003).

Ejemplo: Los modelos de obstáculos pueden estar motivados por los procesos secuenciales de toma de decisiones a los que se enfrentan los individuos. Primero se decide si se necesita comprar algo, y luego se decide la cantidad de ese algo (que debe ser positiva). Cuando se le permite (o puede potencialmente) no comprar nada después de su decisión de comprar algo es un ejemplo de una situación en la que el modelo con ceros es apropiado. Los ceros pueden provenir de dos fuentes: a) no se ha decidido comprar; b) se ha querido comprar pero se ha terminado por no comprar nada (por ejemplo, por falta de existencias).

Beta: El modelo de obstáculos es un caso especial del modelo de dos partes descrito en el capítulo 16 de Frees (2011). Allí veremos que, en los modelos de dos partes, la cantidad de asistencia sanitaria utilizada puede ser una variable continua además de una variable de recuento. Por lo tanto, lo que se ha denominado de forma un tanto confusa "distribución beta cero-inflada" en la literatura pertenece, de hecho, a la clase de distribuciones y modelos de dos partes (tan comunes en la ciencia actuarial), lo que es coherente con la definición anterior de un modelo de obstáculos. Este excelente libro analiza los modelos de inflación cero en la sección 12.4.1 y los modelos de obstáculos en la sección 12.4.2, con fórmulas y ejemplos de aplicaciones actuariales.

La historia: Los modelos de Poisson con inflación cero (ZIP) sin covariables tienen una larga historia (véase, por ejemplo, Johnson y Kotz, 1969). La forma general de los modelos de regresión ZIP que incorporan covariables se debe a Lambert (1992). Los modelos Hurdle fueron propuestos por primera vez por el estadístico canadiense Cragg (1971), y posteriormente desarrollados por Mullahy (1986). También se puede considerar Croston (1972), donde se utilizan recuentos geométricos positivos junto con el proceso Bernoulli para describir un proceso de valor entero dominado por ceros.

R: Por último, si utiliza R, hay paquete pscl para "Clases y métodos para R desarrollados en el Laboratorio de Computación de Ciencias Políticas" de Simon Jackman, que contiene las funciones hurdle() y zeroinfl() de Achim Zeileis.

Para ello se han consultado las siguientes referencias:

  • Gurmu, S. & Trivedi, P. K. Excess Zeros in Count Models for Recreational Trips Journal of Business & Economic Statistics, 1996, 14, 469-477
  • Johnson, N., Kotz, S., Distribuciones en estadística: Distribuciones Discretas. 1969, Houghton MiZin, Boston
  • Lambert, D., Zero-inflated Poisson regression with an application to defects in manufacturing. Technometrics, 1992, 34 (1), 1-14.
  • Cragg, J. G. Some Statistical Models for Limited Dependent Variables with Application to the Demand for Durable Goods Econometrica, 1971, 39, 829-844
  • Mullahy, J. Especificación y prueba de algunos modelos de datos de recuento modificados Journal of Econometrics, 1986, 33, 341-365
  • Frees, E. W. Regression Modeling with Actuarial and Financial Applications Cambridge University Press, 2011
  • Dalrymple, M. L.; Hudson, I. L. & Ford, R. P. K. Modelos de mezcla finita, Poisson inflado a cero y Hurdle con aplicación a SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
  • Croston, J. D. Previsión y control de existencias para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303

5 votos

Entonces, ¿un modelo de obstáculos es realmente un "modelo" en sí mismo? ¿O se trata de ejecutar dos modelos secuenciales y estimados por separado? Imagínese que se modela la competitividad de las carreras electorales mediante el análisis de las puntuaciones de competitividad (1 - margen de victoria). Esto está acotado [0, 1), porque no hay empates (por ejemplo, 1). Así que primero hacemos una regresión logística para analizar 0 frente a (0, 1). Luego hacemos una regresión beta para analizar los casos (0, 1). ¿Parece que se trata de dos modelos totalmente diferentes, con sus propios coeficientes y una estimación separada? ¿O me estoy perdiendo algo?

0 votos

Por ejemplo, usted menciona en su respuesta que los ceros podrían deberse a (a) la decisión de no comprar un coche, o (b) el deseo de hacerlo, pero estaba agotado. Parece que un modelo de obstáculos no sería capaz de diferenciar entre ambos, ya que se hacen de forma secuencial...?

0 votos

Consideremos otro ejemplo: las respuestas son [1, 7], como una escala Likert tradicional, con un enorme efecto techo en 7. Se podría hacer un modelo de obstáculos que sea una regresión logística de [1, 7) frente a 7, y luego una regresión Tobit para todos los casos en que las respuestas observadas sean < 7. De nuevo, obtenemos dos conjuntos de coeficientes de regresión, y se estiman por separado. Parece que no estamos modelando estos procesos conjuntamente, sino en dos modelos totalmente diferentes. Entonces, ¿es el obstáculo realmente un modelo, o sólo el proceso de hacer dos tipos diferentes de modelos lineales generalizados seguidos?

71voto

abhishek sharma Puntos 13

Los modelos de obstáculos suponen que sólo hay un proceso por el que se puede producir un cero, mientras que los modelos de inflación cero suponen que hay 2 procesos diferentes que pueden producir un cero.

Los modelos de obstáculos suponen dos tipos de sujetos: (1) los que nunca experimentan el resultado y (2) los que siempre experimentan el resultado al menos una vez. Los modelos cero-inflados conceptualizan a los sujetos como (1) los que nunca experimentan el resultado y (2) los que pueden experimentar el resultado pero no siempre lo hacen.

En términos sencillos: tanto el modelo de inflación cero como el de obstáculos se describen en dos partes.

La primera es la parte de encendido y apagado, que es un proceso binario. El sistema está "apagado" con probabilidad $\pi$ y "on" con probabilidad $1-\pi$ . (Aquí, $\pi$ se conoce como la probabilidad de inflación). Cuando el sistema está "apagado", sólo son posibles los recuentos de cero. Esta parte es la misma para los modelos de inflación cero y de obstáculos.

La segunda parte es la del recuento, que se produce cuando el sistema está "encendido". Aquí es donde difieren los modelos de inflación cero y los modelos de obstáculos. En los modelos de inflación cero, los recuentos pueden seguir siendo cero. En los modelos de obstáculo deben ser distintos de cero. Para esta parte, los modelos de inflación cero utilizan una distribución de probabilidad discreta "habitual", mientras que los modelos de obstáculos utilizan una función de distribución de probabilidad discreta truncada por cero.

Ejemplo de modelo de obstáculos: Un fabricante de automóviles quiere comparar dos programas de control de calidad para sus automóviles. Los comparará en función del número de reclamaciones de garantía presentadas. Para cada programa, se hace un seguimiento de un conjunto de clientes seleccionados al azar durante 1 año y se cuenta el número de reclamaciones de garantía que presentan. A continuación se comparan las probabilidades de inflación de cada uno de los dos programas. El estado "off" es "presentó cero reclamaciones" mientras que el estado "on" es "presentó al menos una reclamación".

Ejemplo de un modelo con inflación cero: En el mismo estudio anterior, los investigadores descubren que algunas reparaciones de los automóviles se arreglaron sin presentar una reclamación de garantía. De este modo, los ceros son una mezcla de la ausencia de problemas de control de calidad, así como de la presencia de problemas de control de calidad que no implicaron reclamaciones de garantía. El estado "off" significa "presentó cero reclamaciones" mientras que el estado "on" significa "presentó al menos una reclamación O se arreglaron reparaciones sin presentar una reclamación".

Ver ici para un estudio en el que se aplicaron ambos tipos de modelos al mismo conjunto de datos.

1 votos

Gracias por la respuesta detallada. ¿Tendrías una opinión sobre cuál es la terminología apropiada para la distribución beta estándar con ceros añadidos? Utilizando su definición de modelos con inflación cero, está claro que hay una fuente de ceros, por lo que no puede llamarse con inflación cero... Ver esta discusión stats.stackexchange.com/questions/81343/

2 votos

Me gusta la "distribución beta cero" sugerida por @Hibernando

13voto

Tom H. Puntos 23783

En el modelo ZIP $y_i$ ~0 con probabilidad $\pi$ y $y_i$ ~ Poisson ( $\lambda$ ) con probabilidad $1-\pi$ , por lo que el modelo ZIP es un modelo de mezcla con 2 componentes y: $$\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$$ $$\Pr (y_j = x_i) = (1 - \pi) \frac{\lambda^{x_i} e^{-\lambda}} {x_i!},\qquad x_i \ge 1$$

y en un modelo de obstáculos $y_i$ ~ 0 con probabilidad $\pi$ y $y_i$ ~ Poisson truncado ( $\lambda$ ) con probabilidad $1-\pi$ y..: $$\Pr (y_j = 0) = \pi $$ $$\Pr (y_j = x_i) = \frac{(1 - \pi)} {1-e^{-\lambda}} (\frac{\lambda^{x_i} e^{-\lambda}} {x_i!}),\qquad x_i \ge 1$$

4voto

Nick Stauner Puntos 8220

En cuanto a los modelos de obstáculos, aquí está una cita de Advances in Mathematical and Statistical Modeling (Arnold, Balakrishnan, Sarabia y Mínguez, 2008):

El modelo de valla se caracteriza por el proceso por debajo de la valla y el de arriba. Obviamente, el modelo de obstáculo más utilizado es el que fija el obstáculo en cero. Formalmente, el modelo de obstáculo en cero se expresa como: $P(N_i=n_i)=f_1(0)$ para $n_i=0$ $P(N_i=n_i)=\frac{1-f_1(0)}{1-f_2(0)}f_2(n_i)=\phi f_2(n_i)$ para $n_i=1,2,...$

La variable $\phi$ puede interpretarse como la probabilidad de superar el obstáculo, o más exactamente en el caso de los seguros, la probabilidad de declarar al menos un siniestro.

En cuanto a los modelos de inflación cero, Wikipedia dice :

Un modelo cero-inflado es un modelo estadístico basado en una distribución de probabilidad cero-inflada, es decir, una distribución que permite observaciones frecuentes de valor cero.

El modelo de Poisson inflado a cero se refiere a un suceso aleatorio que contiene un exceso de datos de recuento cero en la unidad de tiempo. $^{[1]}$ Por ejemplo, el número de reclamaciones a una compañía de seguros por parte de cualquier persona cubierta es casi siempre cero, ya que, de lo contrario, las pérdidas sustanciales provocarían la quiebra de la compañía de seguros. El modelo de Poisson inflado por cero (ZIP) emplea dos componentes que corresponden a dos procesos generadores de cero. El primer proceso se rige por una distribución binaria que genera ceros estructurales. El segundo proceso se rige por una distribución de Poisson que genera recuentos, algunos de los cuales pueden ser cero. Los dos componentes del modelo se describen como sigue: $$\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$$ $$\Pr (y_j = h_i) = (1 - \pi) \frac{\lambda^{h_i} e^{-\lambda}} {h_i!},\qquad h_i \ge 1$$ donde la variable de resultado $y_j$ tiene cualquier valor entero no negativo, $\lambda_i$ es el recuento de Poisson esperado para el $i$ a la persona; $\pi$ es la probabilidad de que haya ceros adicionales.

De Arnold y sus colegas (2008), veo que un modelo de obstáculos a cero es un caso especial de la clase más general de modelos de obstáculos, pero de una referencia en Wikipedia ( Hall, 2004 ), también veo que algunos modelos con inflación cero pueden tener límites superiores. No entiendo muy bien la diferencia en las fórmulas, pero parecen ser bastante similares (ambas utilizan incluso un ejemplo muy parecido, las reclamaciones de seguros). Espero que otras respuestas puedan ayudar a explicar cualquier diferencia importante, y que esta respuesta ayude a sentar las bases de las mismas.

La referencia de Wikipedia:

  1. Lambert, D. (1992). Regresión de Poisson cero-inflada, con una aplicación a los defectos en la fabricación. Tecnometría, 34 (1), 1-14.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X