4 votos

Dado muestras de múltiples normal RVs, ¿cómo podemos recuperar el histograma de sus medios?

Deje $X_1,...,X_N$ ser independiente de la normal de variables aleatorias. $X_i$ es normal con una media de $\mu_i$ y la desviación estándar $\sigma_i$. Deje $x_i$ ser una sola muestra aleatoria de $X_i$.

Entrada: Tenemos todos los $x_i$'s y todos los $\sigma_i$'s, pero no obtener el $\mu_i$'s.

Pregunta 1: Calcular el histograma de la $\mu_i$'s.

Pregunta 2 Asumir los medios de $\mu_i$, de manera independiente, extraída de una distribución $\mathcal{M}$. Generar una estimación de $\mathcal{M}$.

Nota: la Pregunta 1 fue respondida por debajo de @soakley pero la solución no ayudar a mi solicitud, por lo que añadió la Pregunta 2.

Tenga en cuenta que el objetivo no es el de estimar el $\mu_i$'s de forma individual, sino más bien para obtener una buena estimación para el histograma, o de la distribución, de todas las $\mu_i$'s juntos. Esta estimación se espera debe ser mejor de lo que nos iba a llegar por la simple mezcla de las Gaussianas alrededor de la $x_i$'s. Una máxima probabilidad de la estimación debería funcionar, pero no sé cómo lo producen.

Calentar pregunta: Una simple cuestión es la de arriba, cuando todos los $\sigma_i$'s son el mismo. Esto es fácil: ver respuesta en la parte inferior.

Más detalles: Necesito un método que me puede programar y ejecutar en un tiempo razonable. De modo exponencial de los algoritmos en tiempo no será suficiente.

En mi opinión, $N$ es de alrededor de 5000, las desviaciones estándar son en su mayoría de entre 5 y 50, y los medios son en su mayoría de entre 0 y 40.

Hasta ahora he probado el ingenuo solución de dibujo de una Gaussiana alrededor de cada una de las $x_i$ y la mezcla de todos estos Gaussianas. Los resultados no parecen en absoluto como la correcta distribución de $\mu_i$'s. Por ejemplo, imagina que todos los $X_i$'s son estándar normal de vehículos recreativos. Entonces mi método ingenuo suponer que el $\mu_i$'s se encuentran en una muy amplia Gaussiana alrededor de 0. Sin embargo, dadas las muestras de $x_i$ y la desviación estándar $\sigma_i$, un ingenioso algoritmo puede ver claramente que la mejor conjetura es que todos los $\mu_i$'s son iguales a cero. Por lo tanto, debería ser posible hacerlo mucho mejor que mi ingenua algoritmo, posiblemente con algunas inteligente uso de la transformada de Fourier de la Descomposición.

Respuesta a la pregunta de calentamiento: Pregunta 1 no tiene una buena solución; para obtener una buena solución, uno tendría que asumir una distribución posterior. Como para la pregunta 2: cuando todas las desviaciones estándar son los mismos, entonces para obtener una estimación de la distribución de $\mathcal{M}$ simplemente necesitamos de convolución de la distribución de $x_i$'s con una Gaussiana. No veo la manera de generalizar esto para el caso de diferentes $\sigma_i$'s, aunque.

Motivación: Yo soy un jugador de poker jugar un muy swingy juego de poker (de Pot Limit Omaha). Queremos averiguar si la comisión es demasiado alto, por encontrar la "verdadera winrates" de que el grupo de jugadores. Tenemos como datos de la winrates de todos los jugadores en el grupo de jugadores durante todo un año (estas son las $x_i$), y las desviaciones estándar de sus ganancias (esto es $\sigma_i$) y queremos estimar la distribución de su "verdadero winrates" ($\mu_i$'s) con el fin de averiguar si hay suficientes jugadores ganar. Esto se traduce en el problema anterior.

Investigación En Curso Acabo de encontrar un papel de Bovy et al cual se parece a la dirección de una generalización de mi pregunta y sugiere un algoritmo. Parece bastante relevante. Voy a leer e informar de los resultados aquí.

1voto

soakley Puntos 1968

No estoy seguro de que su objetivo es alcanzable. Pero aquí es una idea.

Se puede construir un modelo Bayesiano donde la parte posterior de cada una de las $\mu_i$ tiene una distribución conocida? Por ejemplo, supongamos que usted puede hacer esto con distribuciones normales. Si es así, entonces usted puede encontrar fácilmente la probabilidad de que $\mu_i$ en un bin. Suponga que hacer esto para cada jugador para cada bin, la adición de sus parcial de contribuciones (las probabilidades) a los recipientes hasta que haya agotado sus datos.

Luego divide cada uno de bin total por el número de jugadores en sus datos. Este es su estimación del histograma de la $\mu_i$'s.

Pregunta 2. Esto suena como una norma de CDF estimación problema. Retirar el Dvoretzky-Kiefer-Wolfowitz la desigualdad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X