Abordaremos este problema utilizando estimación de máxima verosimilitud para estimar $N$ .
Primero, escribamos la probabilidad de ver $x$ chocolates y $y$ papeles azules, entregados $N$ cajas fueron abiertas, la probabilidad de ver un chocolate es $p_x$ y la probabilidad de ver un papel azul es $p_y$ . Esto no es más que el producto de dos distribuciones binomiales con el mismo $N$ :
$P(x,y) = \frac{N!}{x!(N-x)!} p_x^x(1-p_x)^{N-x}\frac{N!}{y!(N-y)!}p_y^y(1-p_y)^{N-y}$
Resolvemos el $N$ que nos da la mayor probabilidad de ver las observaciones que realmente vimos, en este caso 45 chocolates y 16 papeles azules. La mejor manera de hacerlo es maximizar el logaritmo de $P(x,y)$ por razones de estabilidad y para evitar números realmente grandes o pequeños.
Aquí hay algo de código R para hacer esto de una manera bastante bruta:
log.pxy <- function(N, px, py, x, y)
{
dbinom(x, N, px, log=TRUE) + dbinom(y, N, py, log=TRUE)
}
results <- rep(-Inf,200)
for (N in 50:200) results[N] <- log.pxy(N, 0.34, 0.1, 45, 16)
which.max(results)
[1] 137
Nuestra estimación de máxima probabilidad de $N$ es 137.
En cuanto a la obtención de un intervalo de confianza, podemos utilizar el hecho de que -2 * el logaritmo observado de la función de verosimilitud ( $P(x,y)$ visto como una función de $N$ en lugar de $(x,y)$ ) se distribuye asintóticamente $\chi^2(1)$ . Encontramos el $N$ para los que la probabilidad logarítmica está "demasiado lejos" por debajo del máximo, utilizando el $\chi^2(1)$ como guía, y construyendo un intervalo de confianza del 95%:
> min(which(2*results > max(2*results)-qchisq(0.95,1)))
[1] 111
> max(which(2*results > max(2*results)-qchisq(0.95,1)))
[1] 168
Por lo tanto, un intervalo de confianza del 95% sería [110, 169] - tenemos que ampliar el intervalo en 1 en cada extremo para llegar "fuera" del qchisq
Rango del 95%.
En cuanto a sus otras preguntas: Si hay más de dos propiedades, puedes ampliar la metodología de la solución de la manera obvia y seguirá funcionando.
La situación más compleja es cuando $p_x$ y $p_y$ son a su vez estimaciones basadas en muestras. Yo estimaría conjuntamente $p_x$ , $p_y$ y $N$ en ese caso, lo que puede hacerse con un procedimiento anidado que itere sobre $N$ en un bucle externo, y, en una optimización interna, estima $p_x$ y $p_y$ dados todos los datos y $N$ . (Como se verá, esto es bastante sencillo; dado $N$ Es sólo la estimación habitual de $p_x$ y $p_y$ .) A continuación, encontramos el $N$ que maximiza la probabilidad logarítmica como antes.
La función de probabilidad es más compleja. Vamos a denotar la otra información con $N_a$ y $N_b$ tamaños de muestra y valores observados $x_a$ y $y_b$ . Tenemos:
$L(N,p_x,p_y) = {{N}\choose{x}}p_x^x(1-p_x)^{N-x} {{N_a}\choose{x_a}}p_x^{x_a}(1-p_x)^{N_a-x_a} \dots$
donde el $\dots$ nos ahorra la redacción de la $p_y$ parte. Obviamente, podemos combinar algunos términos, pero esta forma hace que sea un poco más fácil ver lo que está pasando.
Ahora el código R. Asumiré, para concretar, que $N_a=200$ y $x_a=68$ , dando la estimación puntual de $p_x=0.34$ y $N_b=100$ , $y_b=10$ , dando la estimación puntual de $p_y=0.1$ .
log.ll <- function(px, py, N, x, y, Na, Nb, xa, yb) {
dbinom(x, N, px, log=TRUE) + dbinom(y, N, py, log=TRUE) +
dbinom(xa, Na, px, log=TRUE) + dbinom(yb, Nb, py, log=TRUE)
}
x = 45
y = 16
Na = 200
Nb = 100
xa = 68
yb = 10
log.ll.N <- rep(-Inf,200)
for (N in 51:200) {
px.hat <- (x+xa)/(N+Na)
py.hat <- (y+yb)/(N+Nb)
log.ll.N[N] <- log.ll(px.hat, py.hat, N, x, y, Na, Nb, xa, yb)
}
Y, por las respuestas:
> which.max(log.ll.N)
[1] 135
> min(which(2*log.ll.N > max(2*log.ll.N)-qchisq(0.95,1)))
[1] 103
> max(which(2*log.ll.N > max(2*log.ll.N)-qchisq(0.95,1)))
[1] 180
>
Para una estimación puntual ligeramente diferente de 135 para $N$ y un intervalo de confianza más amplio de 102 - 181, como corresponde a nuestra nueva falta de precisión sobre $p_x$ y $p_y$ . Podemos recuperar nuestras nuevas estimaciones de $p_x$ y $p_y$ basado en nuestra muestra combinada:
> N <- 135
> (x+xa)/(N+Na)
[1] 0.3373134
> (y+yb)/(N+Nb)
[1] 0.1106383
También debo señalar que nuestro intervalo de confianza se basa en el perfil log probabilidad no la probabilidad logarítmica, pero sigue siendo un intervalo de confianza perfectamente válido.