11 votos

Solución al problema del tanque alemán

¿Existe una prueba matemática formal de que la solución al problema del tanque alemán es una función de solo los parámetros k (número de muestras observadas) ym (valor máximo entre muestras observadas)? En otras palabras, ¿se puede probar que la solución es independiente de los otros valores de muestra además del valor máximo?

17voto

user164061 Puntos 281

Probabilidad

Problemas comunes en la teoría de la probabilidad se refieren a la probabilidad de las observaciones $x_1, x_2, ... , x_n$ dado un determinado modelo y dado que los parámetros (vamos a llamarlos $\theta$) involucrados. Por ejemplo, las probabilidades de las situaciones específicas en juegos de cartas o juegos de dados son a menudo muy sencillo.

Sin embargo, en muchas situaciones prácticas que estamos tratando con un inversa de la situación (estadística inferencial). Que es: la observación de $x_1, x_2, ... , x_k$ está dado y ahora el modelo es desconocido, o al menos no sabemos de ciertos parámetros $\theta$.

En este tipo de problemas que a menudo se refieren a un término que se llama la probabilidad de los parámetros, $\mathcal{L(\theta)}$, lo cual es un índice de creer en un parámetro específico $\theta$ observaciones dadas $x_1, x_2, .. x_k$. Este término se expresa como el ser proporcional a la probabilidad de que las observaciones $x_1, x_2, .. x_k$ suponiendo que un modelo de parámetro $\theta$ sería hipotéticamente verdadero. $$\mathcal{L}(\theta,x_1, x_2, .. x_k) \propto \text{probability observations $x_1, x_2, .. x_k$ given $\theta$ }$$

Para un determinado valor del parámetro $\theta$ el más probable una observación determinada $x_1, x_2, .. x_n$ es (en relación a la probabilidad con otros valores de los parámetros), más la observación apoya este parámetro en particular (o teoría/hipótesis que asume este parámetro). Una (relativa) de alta probabilidad reforzará nuestro opina acerca de que el valor del parámetro (hay mucho más filosófico que decir acerca de esto).


Probabilidad en el tanque alemán problema

Ahora, para el tanque alemán problema de la función de probabilidad para un conjunto de muestras de $x_1, x_2, .. x_k$ es:

$$\mathcal{L}(\theta,x_1, x_2, .. x_k ) = \Pr(x_1, x_2, .. x_k, \theta) = \begin{cases} 0 &\text{if } \max(x_1, x_2, .. x_k) > \theta \\ {{\theta}\choose{k}}^{-1} &\text{if } \max(x_1, x_2, .. x_k) \leq \theta, \end{cases}$$

Si usted observa las muestras de {1, 2, 10} o muestras {8, 9, 10} no debe importar cuando las muestras se consideran a partir de una distribución uniforme con parámetros de $\theta$. Ambas muestras son igualmente probables con una probabilidad de ${{\theta}\choose{3}}^{-1}$ y el uso de la idea de probabilidad de la muestra no decir más sobre el parámetro de $\theta$ que el resto de la muestra.

Los altos valores {8, 9, 10} podría hacer pensar/creer que $\theta$ debería ser mayor. Pero, es sólo el valor de {10} Que realmente te ofrece información relevante acerca de la probabilidad de $\theta$ (el valor 10 indica que $\theta$ será de diez o más, el resto de los valores 8 y 9 no contribuir en nada a esta información).


Fisher, Neyman teorema de factorización

Este teorema dice que una determinada estadística $T(x_1, x_2, … , x_k)$ (es decir, una función de las observaciones, como la media, la mediana, o como en el tanque alemán problema de la máxima) es suficiente (contiene toda la información) cuando usted puede factor a cabo, en la probabilidad de la función, en los términos que dependen de otras observaciones $x_1, x_2, … , x_k$, de tal manera que este factor no depende de que tanto el parámetro de $\theta$ e $x_1, x_2, … , x_k$ (y la parte de la probabilidad de la función que relaciona los datos con los hipotéticos valores de parámetro sólo depende de la estadística, pero no la totalidad de los datos/observaciones).

El caso de el tanque alemán problema es simple. Usted puede ver por encima de que toda la expresión para la Probabilidad de arriba es ya sólo depende de la estadística de $\max(x_1, x_2, .. x_k)$ y el resto de los valores de $x_1, x_2, .. x_k$ no importa.


Poco juego como ejemplo

Digamos que jugar el siguiente repetidamente: $\theta$ es en sí misma una variable aleatoria y dibujadas con probabilidad igual a 100 o 110. A continuación, sacamos una muestra de $x_1,x_2,...,x_k$.

Queremos elegir una estrategia para adivinar $\theta$, basado en la observó $x_1,x_2,...,x_k$ que aumenta nuestra probabilidad de tener el derecho de adivinar de $\theta$.

La estrategia adecuada será la de elegir 100 menos uno de los números en la muestra es >100.

Podríamos tener la tentación de elegir el valor del parámetro 110 ya cuando muchas de las $x_1,x_2,...,x_k$ tienden a ser todos los altos valores cercanos a cien (pero ninguno exactamente más de cien), pero que sería un error. La probabilidad de que esta observación será mayor cuando el verdadero valor del parámetro es de 100 que cuando es de 110. Así que si suponemos que, en tal situación, 100 como valor del parámetro, entonces vamos a ser menos propensos a cometer un error (porque la situación con estos altos valores cercanos a cien, pero todavía por debajo de ella, se produce más a menudo en el caso de que el valor real es de 100 más que en el caso de que el valor real es de 110).

0voto

jgradim Puntos 1143

Usted no ha presentado una formulación precisa de "el problema", por lo que no es claro exactamente lo que usted está pidiendo para ser probado. Desde una perspectiva Bayesiana, la probabilidad posterior depende de todos los datos. Sin embargo, cada observación de un determinado número de serie en el que el número de la mayoría. Es decir, dado cualquier observación $n$, la odds ratio entre la parte posterior y anterior será mayor para la hipótesis de "el número real de los tanques es $n$" que "el número real de los tanques es [número distinto de $n$]". Por lo tanto, si vamos a empezar con un uniforme antes, a continuación, $n$ serán los que tengan más posterior después de ver que la observación.

Considere un caso donde tenemos el punto de datos $13$, y las hipótesis de $N=10,13,15$. Obviamente, la parte posterior de $N=10$ es cero. Y nuestro posteriores para $N=13,15$ mayor que la de sus anteriores. La razón de esto es que en el razonamiento Bayesiano, la ausencia de evidencia es evidencia de ausencia. En cualquier momento tenemos una oportunidad en la que nos podría haber hecho una observación que habría disminuido nuestra probabilidad, pero no, la probabilidad aumenta. Ya que podría haber visto a $16$, que se han puesto en nuestro posteriores para $N=13,15$ a cero, el hecho de que no vemos eso significa que tenemos que aumentar nuestra posteriores para $N=13,15$. Pero tenga en cuenta que cuanto menor sea el número, más los números que podría haber visto que habría excluido de ese número. Para $N=13$, se habría rechazado la hipótesis de que después de ver $14,15,16,...$. Pero para $N=15$, se habría necesitado al menos $16$ para rechazar la hipótesis. Desde la hipótesis de $N=13$ es más falsificable de $N=15$, el hecho de que no falsificar $N=13$ es más evidencia de $N=13$, que no falsificar $N=15$ es la evidencia para $N=15$.

Así que cada vez que vemos un punto de datos, conjuntos de la parte posterior de todo por debajo de cero, y aumenta la parte posterior de todo lo demás, con pequeños números de conseguir el mayor impulso. Por lo tanto, el número que se obtiene de la general mayor impulso será el menor número de cuyo posterior no se ha establecido a cero, es decir, el máximo valor de las observaciones.

Los números menores que el máximo afectar cuánto más grande de un impulso a la máxima se, pero eso no afecta a la tendencia general de la máxima obtención de mayor impulso. Considere el ejemplo de arriba, donde ya hemos visto a $13$. Si el número siguiente que vemos es $5$, ¿qué efecto tendrá? Ayuda a $5$ más de $6$, pero ambos números ya han sido rechazadas, por lo que no es relevante. Ayuda a $13$ más de $15$, pero $13$ ya ha ayudado a más de $15$, por lo que no afecta a que número se ha ayudado a la mayoría.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X