Tengo datos de ventas que registran a qué hora (por segundo) y cuántas se vendieron. Por lo tanto, los datos son datos de recuento con alrededor de 90-150 ventas durante un período de 3 días. Si los agrego al intervalo de 10 minutos, tendré alrededor de un 75% de observaciones nulas porque, por ejemplo, 100/(24*3*6) = 0,2314815. Pero creo que esto sigue llevando a una proporción de ceros/total demasiado alta, incluso cuando se aplican los datos a modelos de Poisson con inflación cero o similares. ¿Cuál es la cantidad razonable de observaciones nulas contenidas en el conjunto de datos para aplicar modelos de Poisson con inflación cero? Según la bibliografía o los ejemplos de otros lugares, creo que un 40% de observaciones nulas es aceptable. Pero no sé si el 50% está bien.
Respuesta
¿Demasiados anuncios?No estoy seguro de que existan reglas estrictas sobre un número aceptable de ceros. Sobre todo cuando se trabaja con un modelo inflado a cero. Los modelos inflados a cero tienen dos partes, una que predice la probabilidad de $y > 0$ Es decir $$ P(y_{i} > 0 | x_{i}) = p_{i} = \frac{1}{1 + e^{-Xb_{i}}} $$ Esto se suele hacer con un modelo logístico, aunque el probit tampoco es infrecuente. Tenga en cuenta que se trata de un condicional probabilidad, condicionada a algún vector $x$ que en el caso más simple es un escalar, $1$ pero podría contener información que predice si el resultado, $y_i$ es un cero o no. Cuanto más exactamente pueda predecir si una observación será cero o no, mejor será el ajuste de su modelo de recuento. Este ajuste es evidente en la función de probabilidad logarítmica para el poisson inflado por cero: $$ \mathcal{L} = \sum_{i=1}^{n}\left\{ \begin{array}{rl} ln(p_{i} + (1 - p_{i})e^{(-\mu_{i})}) &\mbox{if $ y_{i} = 0 $} \\ y_{i}ln(\mu_{i}) + ln(1 - p_{i}) - \mu_{i} - ln(y_{i}!) &\mbox{if $ y_{i} > 0 $} \end{array} \right. $$ donde $\mu_i = e^{x_{i}^{'}\beta}$ el recuento esperado dado su modelo (asumo el enlace logarítmico canónico). En particular, considere el comportamiento como $p_i$ va a los extremos: 1 o 0. Para $y_i > 0$ la fórmula converge a: $$ \mathcal{L} = y_{i}ln(\mu_{i}) - \mu_{i} - ln(y_{i}!) $$
Desde un punto de vista más pragmático, una de las preocupaciones sería ¿tiene suficientes datos que no sean cero? Las estimaciones serán inestables si los datos son insuficientes. Por ejemplo, 250 observaciones pueden estar muy bien, pero si 240 son ceros, aunque pueda predecir perfectamente 0/>0, sólo tendrá 10 observaciones sobre la distribución real del recuento. Además, una cosa que podría comprobar es la distribución de los residuos y los residuos frente a los valores ajustados. En particular, si le preocupa que el número de ceros sea un problema, compruebe los residuos y el ajuste de los valores cero.
Si su modelo no se ajusta bien a los ceros o a los datos de recuento, puede considerar alguna otra forma de modelo. Una alternativa común al poisson inflado por cero es la binomial negativa inflada por cero. La principal diferencia es un parámetro de dispersión excesivo (aunque la función de probabilidad logarítmica es bastante más compleja): $$ \mathcal{L} = \sum_{i=1}^{n} \left\{ \begin{array}{rl} ln(p_{i}) + (1 - p_i)\left(\frac{1}{1 + \alpha\mu_{i}}\right)^{\frac{1}{\alpha}} &\mbox{if $ y_{i} = 0 $} \\ ln(p_{i}) + ln\Gamma\left(\frac{1}{\alpha} + y_i\right) - ln\Gamma(y_i + 1) - ln\Gamma\left(\frac{1}{\alpha}\right) + \left(\frac{1}{\alpha}\right)ln\left(\frac{1}{1 + \alpha\mu_{i}}\right) + y_iln\left(1 - \frac{1}{1 + \alpha\mu_{i}}\right) &\mbox{if $ y_{i} > 0 $} \end{array} \right. $$
También podría explorar los modelos de mezcla que asumen que los datos observados provienen de una mezcla subyacente de distribuciones.
Aquí hay algunas páginas que pueden ser útiles para ajustar los modelos, hablar de ellos o hacer gráficos. Para mayor transparencia, yo fui el autor principal de estas páginas. Estoy seguro de que hay otros buenos recursos, pero los he enlazado porque los conozco de memoria.
Poisson con inflación cero Binomio negativo inflado a cero Poisson de truncamiento cero esto es más para diferentes enfoques de gráficos que para sugerir un modelo, aunque podría probar un modelo truncado por cero en las observaciones no nulas (es decir, excluir todos los ceros y ver cómo se compara con el ZIP).