8 votos

Estimar el número de veces que se lanzó cada uno de los cuatro pares de dados

PROBLEMA

Supongamos que tengo cuatro dados: rojo (R), verde (G), azul (B) y amarillo (Y). Lanzo estos dados varias veces. En cada lanzamiento se utilizan dos de los cuatro dados, y sólo se permiten las siguientes parejas:

  • RB
  • RY
  • GB
  • GY

Después de cada tirada, anoto los dados que han sacado un "uno". Entre los cuatro pares permitidos hay nueve resultados posibles:

  1. Tanto R como B sacaron un "uno
  2. Tanto R como Y sacaron un "uno
  3. Tanto G como B sacaron un "uno
  4. Tanto G como Y sacaron un "uno
  5. Sólo R sacó un "uno
  6. Sólo G sacó un "uno
  7. Sólo B sacó un "uno
  8. Sólo Y sacó un "uno
  9. Ninguno de los dados sacó un "uno

Mientras lanzo los dados, hago un recuento de cuántas veces he obtenido cada uno de los resultados del 1 al 8. I no hacer un recuento de las veces que obtuve el resultado 9.

Al final de este proceso te doy mis cuentas, para que sepas el número de veces que obtuve cada uno de los ocho primeros resultados. También sabes las parejas que se permitieron y la probabilidad de sacar un "uno" (que es la misma para todos los dados). Sin embargo, no sabes el número total de lanzamientos que hice, ni el número de veces que obtuve el resultado 9.

Usando esta información, tu problema es estimar el número de veces que lancé cada uno de los cuatro pares permitidos.

Algunas cosas a tener en cuenta:

  • El orden no importa; ambos dados se lanzan juntos.
  • Varios emparejamientos permitidos pueden tener el mismo resultado; por ejemplo, tanto RB como RY pueden tener el resultado 5.

PREGUNTAS

  • ¿Se puede resolver el problema?
  • ¿Cómo resolvería este problema?
  • ¿Cuáles son algunos nombres para este tipo de problema que serían términos de búsqueda útiles si quiero buscar más información?

2voto

jldugger Puntos 7490

Esta respuesta de las direcciones de la primera y la tercera viñeta puntos: el problema Es solucionable? Podemos enmarcarla en una manera convencional para permitir la búsqueda o de la aplicación de los métodos convencionales?

Para abordar la segunda cuestión que ayuda a iniciar la generalización de la situación, conservando las características especiales que pueden ser útiles para una solución. Vamos a comenzar con los datos en bruto. El experimento es una secuencia de ensayos. En cada prueba (a) un par de dados hecho rodar y (b) podemos registrar el resultado de cada dado (o no) y su color. Esto puede ser representado por dieciséis valores: cuatro posibilidades para cada uno de los cuatro pares de dados. Nosotros conocemos las probabilidades asociadas con cada conjunto de cuatro resultados: $1/6^2$ para los dos, $(5/6)^2$ para los dos no, y $(1/6)(5/6)$ para cada uno de los otros dos resultados.

Para resumir los datos, supongamos que el rojo y azul de los dados estaban echados $n_{rb}$ a veces, el rojo y el amarillo dados $n_{ry}$ tiempos, etc. Esto significa que hemos observado en los resultados de $n_{rb}$ independiente de lanza de la roja y azul, dados, etc. La suma de los rojo-azul lanza por tanto, es el resultado de una distribución multinomial con el parámetro count $n_{rb}$ y las probabilidades de $(1/6, 5/36, 5/36, 25/36)$. Del mismo modo que la suma de los rojo-amarillo lanza es independiente resultado de una distribución multinomial con el parámetro count $n_{ry}$ e la misma probabilidades; el verde-azul de la tira tiene en cuenta el parámetro $n_{gb}$, y el color verde-amarillo lanza tiene en cuenta el parámetro $n_{gy}$. Estos cuatro distribuciones, en este orden, describir colectivamente un $16$-variable de distribución.

Visualización puede ayudar, así que vamos a considerar un ejemplo. Aquí están algunos de los datos crudos con encabezados descriptivos:

                      Red-blue      Red-yellow    Green-blue    Green-yellow
                      00 01 10 11   00 01 10 11   00 01 10 11   00 01 10 11
Red Green Blue Yellow k0 k1 k2 k3   k4 k5 k6 k7   k8 k9 kA kB   kC kD kE kF
  *          *            1
  *                 *                1
        *    *                                              1
        *           *                                                  1

Las variables se denominan k0 través kF: evidentemente son un maniquí de codificación para el $16$ resultados posibles. Los resultados son esquemáticamente se muestra en la segunda línea: "00" significa que ambos dados no eran uno, "01" significa que sólo la segunda morir (como se denomina en la primera línea) mostró un uno, etc. De forma redundante, estrellas indican que dos dados estaban echados: he mostrado sólo para ilustrar lo que está pasando. Por lo tanto, este conjunto de datos se describen cuatro ensayos: el primero, el rojo era el no 1 y el azul fue 1; en el segundo, el rojo y el azul eran no-1; en la tercera, verde y azul fueron ambos a 1; y en el cuarto, el verde fue de 1 y el amarillo era el no-1.

Una estadística suficiente para este experimento sería la suma de todas las filas de datos (tomando espacios en blanco para ser ceros): esta cuenta cada uno de los 16 tipos de resultados.

No observamos estos datos en bruto, a pesar de que: se condensa para nosotros. Específicamente,

  1. El recuento de casos donde R y B mostraron 1 es la suma de los k3 de columna.
  2. El recuento de casos donde tanto el R e y mostró 1 es la suma de los k7 columna..
  3. El recuento de los casos en que tanto G y B mostraron 1 es la suma de los kB de columna.
  4. El recuento de los casos en que tanto G y YB mostró 1 es la suma de los kF de columna.
  5. El recuento de casos donde sólo R mostró 1 es la suma de los k2 y k6 columnas.
  6. El recuento de casos donde sólo G mostró 1 es la suma de los kA y kE columnas.
  7. El recuento de casos donde sólo B mostró 1 es la suma de los k1 y k9 columnas.
  8. El recuento de casos donde sólo Y mostró 1 es la suma de los k5 y kd columnas.
  9. El número de casos en los que no mueren mostró 1 es la suma de los k0, k4, k8y kC columnas (pero esto no es revelado a nosotros).

Escrito $\mathbb{k}$ para la columna de la matriz de k's (en el orden que se indica), esta información está muy bien escrito como una transformación lineal $\mathbb{A k}$ donde la matriz $\mathbb{A}$ es

$$\left( \begin{array}{cccccccccccccccc} 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 1 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 \end{array} \right)$$

It is now immediate--your computer will happily tell you this--that the last four rows are redundant (the sum of rows 5 and 6 equals the sum of rows 7 and 8). We might just as well drop the last row from $\mathbb{A}$: será de rango completo.

Aquí, entonces, es el resumen de la declaración del problema:

Dada una realización $\mathbb{k}$ a partir de una familia de distribuciones multivariantes parametrizado por los números naturales $\mathbb{n} = (n_{rb}, n_{ry}, n_{gb}, n_{gy})$ y dada una observación de $\mathbb{A k}$, la estimación de los parámetros (y obtener los errores estándar o límites de confianza en las estimaciones).

Probablemente deberíamos añadir que las entradas de $\mathbb{k}$ son en sí mismos números naturales: este es un discreto distribución.

En general, la estructura de $\mathbb{A}$ induce dependencias entre las entradas de $\mathbb{A k}$. (Tenga en cuenta que las entradas de $\mathbb{k}$ ya de por sí tienen algunas pequeñas dependencias derivadas de la subyacente multinomial de las distribuciones). Esto, junto con la distribución discreta de $\mathbb{A k}$ y discreto del espacio de parámetros, se va a crear dificultades en el desarrollo de estimadores.

Al menos podemos empezar por tomar las expectativas, porque es fácil escribir la expectativa de $\mathbb{k}$ en términos de la $n_{*}$: $E[k_0] = n_{rb}25/36$, $E[k_1] = n_{rb}5/36$, ..., y $E[k_A] = n_{gy}/36$. La linealidad de la expectativa nos dice que $E[\mathbb{Ak}] = \mathbb{A}E[\mathbb{k}]$. De trabajo esto nos da una gran cantidad de posibles método de momentos estimadores (no sólo uno). (Uno de ellos fue publicado como una respuesta por parte de la OP.) Así que sí, el problema es solucionable. (La generalizada problema podría tener un método único-de-estimador de momentos o quizás ninguno en absoluto al $\mathbb{A}$ no proporciona la suficiente información para identificar todos los parámetros.)

Las preguntas importantes izquierda a resolver son:

  • Cómo bien puede ser resuelto? Se pueden encontrar buenas (por ejemplo, admisible) estimadores?

  • Podemos obtener un buen intervalos de confianza u otras expresiones de incertidumbre en las estimaciones?

Podemos seguir y calcular la varianza de estas observaciones mediante el uso de reglas estándar, el uso de los segundos momentos de la distribución multinomial. Con esto en la mano, uno podría estar tentado a combinar las siete observaciones (los condes de 1 a 7) el uso generalizado de los mínimos cuadrados. O, se puede proceder directamente a intentar un enfoque de máxima verosimilitud (pero esto sería muy difícil de calcular). Cuando los componentes de la $\mathbb{k}$ se espera que sea grande, normal aproximaciones a la distribución multinomial funcionará muy bien, para, a continuación, $\mathbb{A k}$ también será (aproximadamente) multivariante normal y máximo de estimaciones de probabilidad de la $n_{*}$ podría ser portado bien.


Esa es la (limitada) extensión de mi análisis. Quería compartir en este punto para dar algo para el futuro de respuestas para construir y mostrar la complejidad y las dificultades implicadas en este aparentemente simple de la situación.

0voto

mat_geek Puntos 1367

Sea p la probabilidad de lanzar un 1 en cualquier morir. Vamos ni será la probabilidad de que el resultado designado por el yo. La probabilidad de la ocurrencia de 1,2,3 y 4 son todos p$^2$ como se tiran los dados de forma independiente. La probabilidad de ocurrencias 5, 6, 7, y 8 son todos 2p(1-p), ya que por ejemplo en el caso 5 rojo debe hacer rodar un 1 y el azul del rollo de un número distinto de 1 o rojo rollos 1 y el amarillo morir rollos de un número distinto de 1.

Por lo tanto E(n1)=E(n2)=E(n3)=E(n4)=Np$^2$

y E(n5)=E(n6)=E(n7)=E(n8)=2Np(1-p).

Estimación de N, equiparando el nis con sus expectativas de conseguir porque

n9=N-(n1+n2+n3+n4+n5+n6+n7+n8)

y E(n1+n2+n3+n4)=4Np$^2$

y E(n5+n6+n7+n8) =4(2Np(1-p))

E(n9)=N-4N(p$^2$ +2p(1-p))=

N(1-4(p$^2$+2p-2p$^2$))=N(1-8p+4p$^2$)

Esto demuestra que si N se conoce podía estimar n9 por el entero más próximo a N(1-8p+4p$^2$). O por otro lado si yo sabía n9 me podría estimar N por el entero más cercano a n9/(1-8p+4p$^2$).

Pero si yo no supiera N y yo tampoco lo sé, n9, a continuación, para cualquier solución me podrían multiplicar N y n9 por cualquier número entero (por decir 2 o 5) y obtener otra respuesta. Así que sin más información no puedo encontrar una manera sensible y única estimación para el n9.

0 votos

Muy buena respuesta, pero me sigo preguntando si puede haber alguna forma de estimar N. Un ejemplo conceptual: supongamos que p es cercano a uno. Supongamos también que obtuviera la respuesta 1 una vez, y las respuestas 2-8 cero veces. Tener este resultado sería muy improbable si N fuera muy grande, por lo que podemos concluir que probablemente N no sea muy grande. ¿Hay alguna forma de estimar el N que maximiza la probabilidad de los resultados n1-n8?

0 votos

@est Creo que si supieras la proporción de veces que se lanza cada par podrías maximizar la probabilidad de los resultados observados dado N y calcular una estimación de máxima probabilidad para N. Pero no has especificado las frecuencias con las que se lanza cada uno de los 4 pares y por tanto no puedes definir la probabilidad de forma única.

0 votos

$N_9$ es fácil de estimar; se conoce p y el número total de tiradas observadas N, por lo que, conociendo p, se puede calcular la probabilidad de que no se observe una tirada: $(1p)^2$ (ninguno de los dos dados sale 1.) De ahí se obtiene $N_9 = N(1p)^2/(1(1p)^2)$ .

0voto

Tom Morris Puntos 136

Dejemos que $p$ sea la probabilidad de que cualquier dado saque un uno. Entonces la probabilidad de los resultados 1, 2, 3 y 4 son todos $p^2$ . Sea $n_1$ , $n_2$ , $n_3$ y $n_4$ es el número de observaciones para los resultados 1 a 4. Sea $n_{rb}$ , $n_{ry}$ , $n_{gb}$ y $n_{gy}$ sean los valores que queremos estimar, que son el número real de veces que se lanzó cada una de las parejas de dados. Entonces las mejores estimaciones son:

$$n_{rb} = \frac{n_1}{p^2}$$ $$n_{ry} = \frac{n_2}{p^2}$$ $$n_{gb} = \frac{n_3}{p^2}$$ $$n_{gy} = \frac{n_4}{p^2}$$

1 votos

No creo que lo mejor que se pueda hacer sea ignorar los recuentos de los eventos 5-8. A veces estos harán que sus estimaciones sean imposibles, por ejemplo.

0 votos

Tienes razón, @Douglas: algunos experimentos numéricos con una versión simplificada de este problema muestran que los otros cuatro recuentos añaden una información considerable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X