15 votos

Estimación de parámetros de un binomio

Primero de todo me gustaría precisar que no soy un experto del tema.

Supongamos que tenemos dos variables aleatorias $X$ $Y$ que son binomial, respectivamente $X\sim B(n_1,p)$ $Y\sim B(n_2,p),$ nota aquí que $p$ es el mismo. Sé que $Z=X+Y \sim B(n_1+n_2,p).$

Deje $\{x_1,\ldots,x_k\}$ ser un ejemplo para $X$ $\{y_1,\ldots,y_k\}$ ser un ejemplo para $Y$, existe un método estándar para la estimación de $n=n_1+n_2$$p$?

Esto es lo que hemos hecho:

  1. tomar el "nuevo modelo" de$Z$$\{x_1+y_1,\ldots, x_k+y_k\}$,
  2. el uso de la Probabilidad del Estimador, se obtienen estimaciones de $n$$p$,
  3. con la información de Fisher, tratamos de entender los errores más $n$$p$.

El método parece funcionar, pero todavía tenemos algunas dudas. Deje $S_k$ el grupo de permutación $k$ elementos. Para cada $\sigma\in S_k$ se puede considerar que la "muestra" dado por $\{x_1+y_{\sigma(1)},\dots, x_k+y_{\sigma(k)}\}.$ la Aplicación de la Probabilidad del Estimador para cada una de las "muestras" (hay $k!$ diferentes sumas) obtenemos diferentes estimación de $(n_\sigma,p_\sigma)$$n$$p$ .

¿Cuál es el significado de esto? ¿Cómo los nuevos valores de $n_\sigma, p_\sigma$ están correlacionadas? Puede ser utilizado para calcular el error de $n$?

Algunos Comentarios: La pregunta fue previamente publicado aquí, pero un usuario me sugiere el uso de tats/crossvalidated SE.

En el ejemplo que tengo en mente, $n$ es el número de aves en una región determinada, y $p$ la visibilidad de la probabilidad. Necesito agregado de regiones con similar $p$, de lo contrario, los datos son demasiado pequeños. En particular necesito, si es posible, una estimación sólo para $n$ donde $p$ a priori se desconoce

Un ejemplo Para ser claro, y en vista de la respuesta de kjetil b halvorsen, voy a intentar poner aquí un ejemplo práctico. Supongamos que sólo tenemos una región dividida en dos zonas con probabilidad igual a un fijo $p$, y nuestros datos son los siguientes:

Zone 1   Zone 2
  a1      b1
  a2      b2
  a3      b3
  a4      b4
  a5      b5
  a6      b6

Entonces podemos considerar esto:

Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
   c4
   c5
   c6

Entonces podemos usar la loglikelihood método para la estimación de $N_1+N_2$ también $p$ donde $N_i$ es el parámetro para el binomio de las variables observadas en la Zona $i$. ¿Es lo correcto?

Ahora, yo sé que el método de probabilidad no es estable (para mí estable significa que sólo la buena). Podemos utilizar la información de Fisher? Si sí, qué tipo de información podemos tener?

Por último vamos a ser $\sigma$ $\tau$ dos permutaciones $6$ elementos (hay $(6!)^2$ diferentes parejas) que podemos considerar los nuevos datos dados por

Zona 1+2
c1=$\sigma(1)$+ b$\tau(1)$
c2=a$\sigma(2)$+ b$\tau(2)$
c3=$\sigma(3)$+ b$\tau(3)$
c4=a$\sigma(4)$+ b$\tau(4)$
c5=$\sigma(5)$+ b$\tau(5)$
c6=$\sigma(6)$+ b$\tau(6)$

Rehacer el método de probabilidad, con este nuevo conjunto de variables, obtenemos diferentes estimaciones para $N_1+N_2$.

Así que la pregunta es: ¿el conjunto de la estimación darme alguna información acerca de los errores?

20voto

kjetil b halvorsen Puntos 7012

Voy a intentar una respuesta, incluso si no estoy completamente claro acerca de la situación. Fórmulas tendrá que ser adaptado! El problema de la estimación de $N$ en la distribución binomial es viejo, y hay varios documentos pertinentes. Voy a dar algunas referencias al final.

Vamos a no ser $R$ regiones (en OP ejemplo,$R=2$) $T$ muestras (de distintos intervalos de tiempo de igual longitud) de cada región. El las variables observadas es $x_{it}$ que son independientes del binomio variables aleatorias, cada una con la distribución de $\text{Bin}(N_i,p)$ tanto desconocido. La función de verosimilitud logarítmica se convierte en $$ l(\{N_i \},p) = \sum \log \binom{N_i}{x_{es}} + \log p \sum x_ {} + \log (1-p) \sum (N_i-x_{es}) $$ Tenga en cuenta que, en el problema habitual cuando se $N_i$ es conocido por lo que sólo se $p$ es desconocido, entonces la suma (o la media) de la binomial cuenta $x_{it}$ es suficiente resumen, por lo que el análisis puede ser hecho en términos de la distribución binomial de la suma. En nuestro problema, sin embargo, debido a que de el primer término de la función de verosimilitud logarítmica, tal no es el caso, y el registro de probabilidad depende de cada uno de los condes de forma individual! Así que lo que usted propone, para reducir a la suma de los condes ( $i$ ), NO SE DEBE HACER, como que se pierde la información (cuánto, no sé, pero que puede ser investigado ...). Tratemos de entender esto un poco mejor. En primer lugar, vemos que por debajo de ese $\max_t(x_{it})$ es un estimador consistente de $N_i$, pero este estimador coherente no es una función de la suma de los condes. Que es una clara indicación de que la suma pierde información! Tenga en cuenta también que la media es un estimador imparcial de su expectativa de que es $N_i p$, pero parece que no contienen información acerca de los $N_i$ $p$ de forma individual, cuando no se sabe nada acerca de los otros parámetros. Que indica que si hay información útil acerca de la $N_i$ en la probabilidad de la función, que debe estar contenida en la propagación de los valores de $x_{i1}\dots, x_{iT}$, de nuevo, lo que indica que la suma está mal. El Olkin et al papel que se hace referencia a continuación se muestra, de hecho, que el método de los momentos estimador en muchos casos es mejor que el de máxima verosimilitud! y que utiliza la varianza empírica de la $x_{i1}\dots, x_{iT}$, por lo que no pudo ser calculada a partir de la suma de datos.

Este problema es conocido por ser inestable. Tratemos de entender por qué. En el habitual problema, la estimación de $p$ al $N_i$ en conocido, la estimación puede hacerse de algunos bruto característica de los datos, la media. Cuando se intenta estimar tanto la $N_i$$p$, utilizamos mucho más fino propiedades de la función de verosimilitud logarítmica (por lo tanto de los datos). Para ver por qué, recuerda que podemos obtener la distribución de Poisson como un límite de la binomial cuando $p$ va a cero y $N$ crece sin límites, con una constante positiva del producto. Por lo tanto, si $p$ es pequeña y $N$ grandes, la distribución binomial se aproxima bastante a ese límite. Tomar dos casos: (a) $N=100, p=0.01$, (B) $N=20, p=0.05$. Dibuja histogramas de los dos (binomial) distribuciones:

> zapsmall(cbind(0:20,pA,pB))
               pA       pB
 [1,]  0 0.366032 0.358486
 [2,]  1 0.369730 0.377354
 [3,]  2 0.184865 0.188677
 [4,]  3 0.060999 0.059582
 [5,]  4 0.014942 0.013328
 [6,]  5 0.002898 0.002245
 [7,]  6 0.000463 0.000295
 [8,]  7 0.000063 0.000031
 [9,]  8 0.000007 0.000003
[10,]  9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000

Encima de una tabla de este probabilidades. Para detectar a partir de los datos observados cual de esta dos distribuciones uno tiene, es lo que se necesita para decidir, en este caso, si $N=100$ o si $N=20$. Es, obviamente, muy duro, y la inestabilidad de los estimadores resultantes solo se espera. Este ejemplo también indicó que la inestabilidad es principalmente para las pequeñas $p$. Usted dice que usted espera $p$ alrededor de 0,7, por lo que el problema podría ser más estable, a continuación,. Usted podría investigar para que sus datos por encontrar el estimador de máxima verosimilitud como una función de un conocido $p$, y el trazado que para $p$ en algunos intervalo de confianza.

Los parámetros son de hecho estimable. Está claro que $N_i \ge \max_t(x_{it})$, por lo que es posible utilizar un máximo de contar como un estimador de $N$. Que el estimador será muy consistente, y un parámetro con un estimador consistente debe ser estimable. Pero, como muestra el ejemplo anterior, el estimability es casi una formalidad; en la práctica distribuciones son muy diferentes a $N$ están muy cerca, por lo $N$ es muy débil estimable.

No voy a dar detalles de los métodos de estimación de aquí, pero hay que darle un par de referencias que usted puede comprobar hacia fuera:

Ingram Olkin, Juan Petkau, James V Zidek: Una comparación de N estimadores de la Distribución Binomial. JASA 1981. Este es un clásico de papel que desarrolla y analiza ML y en el momento en que los estimadores, y algunos stabler variantes. Se muestra, además, curiosamente, que en muchos de los casos el método de los momentos estimador es mejor que el estimador ML!

Raymond J Carrol y F Lombard: Una nota sobre N estimadores de la distribución binomial. JASA 1985.
Desarrolla una alternativa, stabler y tal vez mejor estimador, basado en la integración de la $p$ de la probabilidad. También se observa la falta de suficiencia de la suma de los condes.

J Andrew Royle: N_Mixture de Modelos para Estimar el Tamaño de la Población de la Espacialmente Replicado Cuenta. La biometría, 2004. Esto le da otra alternativa enfoque Bayesiano que usted puede intentar.

De regreso a su pregunta concreta. Usted NO DEBE suma de la cuenta sobre sus dos regiones! Que se pierde información. Si se introduce $N=N_1 + N_2$, entonces la función de verosimilitud logarítmica puede ser escrito como una función de $N$, $p$ y $N_1$ (o $N_2$). A continuación, el parámetro adicional $N_1$ debe ser eliminado por algún procedimiento. Yo quiero volver a eso, pero no, no hay tiempo!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X