46 votos

Comprensión de los parámetros dentro de la Distribución Binomial Negativa

Estaba intentando encajar mis datos en varios modelos y me di cuenta de que la fitdistr función de la biblioteca MASS de R me da Negative Binomial como la mejor opción. Ahora desde el wiki página, la definición se da como:

La distribución de NegBin(r,p) describe la probabilidad de fallos k y r éxitos en los ensayos de k+r Bernoulli(p) con éxito en el último ensayo.

Usando R para realizar el ajuste del modelo me da dos parámetros mean y dispersion parameter . No entiendo cómo interpretarlos porque no puedo ver estos parámetros en la página wiki. Todo lo que puedo ver es la siguiente fórmula:

Negative Binomial Distribution Formula

donde k es el número de observaciones y r=0...n . Ahora, ¿cómo relaciono esto con los parámetros dados por R ? El archivo de ayuda tampoco proporciona mucha información.

Además, sólo para decir unas palabras sobre mi experimento: En un experimento social que estaba llevando a cabo, estaba tratando de contar el número de personas que cada usuario contactó en un período de 10 días. El tamaño de la población era de 100 para el experimento.

Ahora, si el modelo se ajusta al Binomio Negativo, puedo decir ciegamente que sigue esa distribución pero realmente quiero entender el significado intuitivo detrás de esto. ¿Qué significa decir que el número de personas contactadas por mis sujetos de prueba sigue una distribución binomial negativa? ¿Puede alguien ayudar a aclarar esto?

53voto

Ben Bolker Puntos 8729

Deberías mirar más abajo en la página de wikipedia, donde dice "mezcla gamma-Poisson". Si bien la definición que cita (que yo llamo la definición de "lanzar una moneda", ya que normalmente la defino para las clases como "supongamos que quieres lanzar una moneda hasta que te salgan cabezas k") es más fácil de derivar y tiene más sentido en un contexto introductorio de probabilidad o de estadística matemática, la mezcla gamma-Poisson es (en mi experiencia) una forma mucho más útil en general para pensar en la distribución en contextos aplicados. (En particular, esta definición permite valores no enteros del parámetro de dispersión/tamaño). En este contexto, su parámetro de dispersión describe la distribución de una hipotética distribución gamma que subyace en sus datos y describe la variación no observada entre los individuos en su nivel intrínseco de contacto. En particular, es el parámetro de forma de los gamma, y puede ser útil para pensar en ello saber que el coeficiente de variación de una distribución gamma con el parámetro de forma $ \theta $ es $1/ \sqrt { \theta }$ como $ \theta $ se hace grande la variabilidad latente desaparece y la distribución se convierte en Poisson.

12voto

MotoWilliams Puntos 1209

Como mencioné en mi anterior mensaje, estoy trabajando en mi cabeza para ajustar una distribución para contar los datos también. Esto es lo que he aprendido:

Cuando la varianza es mayor que la media, la sobredispersión es evidente y, por lo tanto, es probable que la distribución binomial negativa sea apropiada. Si la varianza y la media son iguales, se sugiere la distribución de Poisson, y cuando la varianza es menor que la media, se recomienda la distribución binomial.

Con los datos de conteo en los que está trabajando, está usando la parametrización "ecológica" de la función de Binomio Negativo en R. La sección 4.5.1.3 (Página 165) del siguiente libro disponible gratuitamente habla de esto específicamente (en el contexto de R, ¡nada menos!) y, espero que pueda abordar algunas de sus preguntas:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Si llegas a la conclusión de que tus datos están truncados en cero (es decir, la probabilidad de 0 observaciones es 0), entonces podrías querer comprobar el sabor truncado en cero del NBD que está en la R Paquete VGAM .

Aquí hay un ejemplo de su aplicación:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Espero que esto sea de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X