Voy a dar un método para encontrar una solución aproximada. En primer lugar, vamos a $X_i$ ser la variable aleatoria, "resultado de lanzar $i$ con los dados" y deje $N$ el número de lanzamientos necesarios para llegar a una suma de al menos $k$. Entonces tenemos que
$$
P(N \ge n) = P(X_1+X_2+\dots+X_n \le k)
$$
así que para encontrar la distribución de $N$ necesitamos encontrar las circunvoluciones de las distribuciones de las $X_i$$i=1,2,\dots,n$, para todos los $n$. Los circunvoluciones se puede encontrar numéricamente, pero para un gran $n$ puede ser mucho trabajo, así que tratamos de lugar a la aproximación de la función de distribución acumulativa para las circunvoluciones, utilizando saddlepoint métodos. Para otro ejemplo de saddlepoint métodos, se que mi respuesta a General de la suma de las distribuciones Gamma
Vamos a utilizar el Lugannini-Arroz aproximación para la discret caso, y de la siguiente manera R Butler: "Saddlepoint Aproximaciones con las Aplicaciones" en la página 18 (segunda continuidad de la corrección). En primer lugar, tenemos el momento de generación de la función de la $X_i$, que es
$$
M(T) = E^{tX_i}= \frac16 (e^t+e^{2}+e^{3t}+e^{4t}+e^{5}+e^{6t})
$$
A continuación, el cumulant la generación de la función de la suma de $n$ independiente se convierte en dados
$$K_n(t)=n \cdot de registro(\frac16\sum_{i=1}^6 e^{es})
$$
y también tenemos los primeros derivados de $K$, pero vamos a encontrar esos simbólicamente mediante R. el código es El siguiente:
DD <- function(expr, nombre, orden = 1) {
si(orden < 1) stop ("el" orden "debe ser >= 1")
si(fin == 1) D(expr, nombre)
otra cosa DD(D(expr, nombre, nombre, orden - 1)
}
make_cumgenfun <- function() {
fun0 <- function(n, t) n*log(media(exp((1:6)t)))
fun1 <- function(n, t) {}
fun2 <- function(n, t) {}
fun3 <- function(n, t) {}
d1 <- DD(expresión(nlog((1/6)*(exp(t)+exp(2*t)+exp(3*t)+exp(4*t)+exp(5*t)+exp(6*t)))), "t", 1)
d2 <- DD(expresión(nlog((1/6)(exp(t)+exp(2*t)+exp(3*t)+exp(4*t)+exp(5*t)+exp(6*t)))), "t", 2)
d3 <- DD(expresión(nlog((1/6)(exp(t)+exp(2*t)+exp(3*t)+exp(4*t)+exp(5*t)+exp(6*t)))), "t", 3)
cuerpo(fun1) <- d1
cuerpo(fun2) <- d2
cuerpo(fun3) <- d3
retorno(lista(fun0, fun1, fun2, fun3))
}
A continuación, vamos a resolver el saddlepoint ecuación.
Que se realiza mediante el siguiente código:
funlist <- make_cumgenfun()
# To solve the saddlepoint equation for n, k:
solve_speq <- function(n, k) {# note that n+1 <= k <= 6n is needed
Kd <- function(t) funlist[[2]](n, t)
k <- k-0.5
uniroot(function(s) Kd(s)-k, lower=-100, upper=1, extendInt="upX")$root
}
Tenga en cuenta que el código anterior no es muy robusto, para los valores de $k$ lejos en la cola de la distribución no va a funcionar. A continuación, el código para el cálculo de la función de probabilidad de la cola, aproximadamente, por la Luganini-Arroz aproximación, siguiendo a Butler, página 18, (segundo de la continuidad de la corrección):
Función para devolver la cola de probabilidad:
#
Ghelp <- function(n, k) {
stilde <- solve_speq(n, k)
K <- function(t) funlist[[1]](n, t)
Kd <- function(t) funlist[[2]](n, t)
Kdd <- function(t) funlist[[3]](n, t)
Kddd <- function(t) funlist[[4]](n, t)
w2tilde <- signo(stilde)sqrt(2(stilde*(k-0.5)-K(stilde)))
u2tilde <- 2*sinh(stilde/2)*sqrt(Kdd(stilde))
mu <- Kd(0)
resultado <- if (abs(mu-(k-0.5)) <= 0.001) 0.5-Kddd(0)/(6*sqrt(2*pi)Kdd(0)^(3/2)) else
1-pnorm(w2tilde)-dnorm(w2tilde)(1/w2tilde - 1/u2tilde)
return(resultado)
}
G <- function(n, k) {
divertido <- función(k) Ghelp(n, k)
Vectorización(diversión)(k)
}
A continuación, vamos a tratar de usar esto para calcular una tabla de la distribución, de acuerdo a la fórmula
$$
P(N \ge n) = P(X_1+X_2+\dots+X_n \le k) \\
= 1-P(X_1+\dots+X_n \ge k+1) \\
= 1-G(n,k+1)
$$
donde $G$ es la función desde el código R por encima.
Ahora, vamos a responder a la pregunta original con $K=20$. A continuación, el número mínimo de los rollos es de 4 y el máximo número de rollos es de 20. La probabilidad de que 20 de los rollos que se necesita es muy pequeña, y puede ser calculado exactamente a partir de la fórmula binominal, eso lo dejo para el lector. (la aproximación anterior no funcionará para $n=20$).
Así que la probabilidad de que $N \ge 19$ es aproximada por
> 1-G(20, 21)
[1] 2.220446e-16
La probabilidad de que $N\ge 10$ se aproxima por:
> 1-G(10, 21)
[1] 0.002880649
Y así sucesivamente. El uso de todo esto, se puede obtener una aproximación de la expectativa de sí mismo. Esto debería ser mucho mejor que las aproximaciones que se basan en el teorema del límite central.