27 votos

Cuando el uso de Poisson v. Geométricas v. Binomial Negativa; GLM, el Conteo de Tres Distribuciones de Variable

Estoy tratando de diseño para mí cuando es apropiado utilizar la regresión de tipo (geométricas, poisson, binomial negativa) con el conde de datos, dentro de los GLM (sólo 3 de los 8 GLM distribuciones se utilizan para datos de conteo, aunque la mayoría de todo lo que he leído se centra alrededor de la Negativa Binomial y de Poisson dist.'s).

Hasta ahora tengo la siguiente lógica:

Es el recuento de los datos?

Sí ->

Son la media y la varianza desigual?

Sí -> regresión binomial Negativa

No -> regresión de Poisson

Hay inflación cero?

Sí -> Cero Inflado de Poisson o Cero Inflado Binomial Negativa (Pregunta 1 no parece ser una clara indicación de que va a utilizar cuando. Hay algo para informarle de que la decisión? Por lo que entiendo, una vez que cambie a ZIP, la media de la variación de la igualdad de asunción obtener relajado, así que es bastante similar a la NOTA de nuevo.)

Pregunta 2 ¿de Dónde viene el geométrica de la familia ajuste en esto o qué tipo de preguntas que debería hacer de los datos a la hora de decidir si utilizar un geométrica de la familia en mi regresión?

He leído las entradas de wikipedia (lo que demuestra que este no es un frívolo saco pregunta, me gustaría una explicación en términos sencillos lo que demuestra/que explica cómo decidir entre estas distribuciones para el análisis de datos; de preferencia en el formato de la lógica de árbol que he demostrado más arriba)

Geométrica = se puede usar de 2 maneras:

La distribución de probabilidad del número X de ensayos de Bernoulli necesario para obtener un éxito, apoyado en el conjunto { 1, 2, 3, ...}

O

La distribución de probabilidad del número de Y = X − 1 de fallos antes del primer éxito, apoyado en el conjunto de { 0, 1, 2, 3, ... }.

Así:

Es la probabilidad de que la primera aparición de éxito requiere k número de ensayos independientes, cada uno con probabilidad de éxito p.

Y entiendo que:

La distribución geométrica es un caso especial de discretos Compuesto de Poisson la distribución.

Poisson =

Un discreto de la variable aleatoria X se dice que tiene una distribución de Poisson con el parámetro λ > 0, si, por k = 0, 1, 2, ...,.

Y entiendo que:

La distribución de Poisson es un caso especial de discretos compuesto de Poisson la distribución (o tartamudeo distribución de Poisson) con sólo un parámetro.

Binomial Negativa =

una discreta distribución de probabilidad del número de éxitos en una la secuencia de los independientes e idénticamente distribuidas ensayos de Bernoulli antes especificado (no aleatoria) número de fallos (denotado r) se produce. k ∈ { 0, 1, 2, 3, ... } - número de éxitos

La distribución binomial negativa es un caso especial de discretos Compuesto Poisson distribución discreto y fase-tipo de distribución.

Pregunta 3: veo a la gente intercambiando la Binomial Negativa y distribuciones de Poisson todo el tiempo, pero no Geométricos, así que supongo que hay algo claramente diferente acerca de cuándo usarlo. Si es así, ¿qué es?

P. S. He hecho una (probablemente simplificada, a partir de los comentarios de los) diagrama (editable) de mi comprensión actual si la gente quería comentar/ajustar para la discusión. Count Data: GLM Decision Tree

14voto

Daniel Lew Puntos 39063

Tanto la distribución de Poisson y la distribución geométrica son casos especiales de la binomial negativa (NB) de distribución. Una notación común es que la varianza de las NB es $\mu + 1/\theta \cdot \mu^2$ donde $\mu$ es la expectativa y $\theta$ es responsable por la cantidad de (sobre)la dispersión. A veces $\alpha = 1/\theta$ también se utiliza. El modelo de Poisson ha $\theta = \infty$, es decir, equidispersion, y el geométrico ha $\theta = 1$.

Por lo que en caso de duda entre estos tres modelos, yo recomendaría a la estimación de la PD: El peor de los casos, es que se pierde un poco de la eficiencia mediante la estimación de un parámetro demasiado. Pero, por supuesto, también hay pruebas formales para evaluar si un determinado valor de $\theta$ (por ejemplo, 1 o $\infty$) es suficiente. O puede utilizar los criterios de información etc.

Por supuesto, también hay un montón de otras de una sola o de múltiples parámetros de los datos de recuento de las distribuciones (incluyendo el compuesto de Poisson usted ha mencionado), que a veces puede o no puede aumentar significativamente el mejor encaja.

Como por exceso de ceros: Los dos estrategias para cualquiera que use un cero-inflado los datos del conteo de distribución o un obstáculo consiste en un modelo de modelo binario para cero o mayor más un cero trunca contar modelo de datos. Como usted menciona exceso de ceros y sobredispersión pueden ser confundidos pero a menudo considerable sobredispersión se mantiene incluso después de ajustar el modelo por exceso de ceros. De nuevo, en caso de duda, yo recomendaría usar un NB-basado en la inflación cero o obstáculo modelo por la misma lógica que el anterior.

Descargo de responsabilidad: Esta es una breve y sencilla descripción. Cuando la aplicación de los modelos en la práctica, recomiendo consultar un libro de texto sobre el tema. Personalmente, me gusta el recuento de datos de libros por Winkelmann y que por Cameron Y Trivedi. Pero hay otros buenos como el. Para un R-discusión también te puede interesar nuestro papel en JSS (http://www.jstatsoft.org/v27/i08/).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X