10 votos

Dada una 10D MCMC cadena, ¿cómo puedo determinar su posterior modo(s) en R?

Pregunta: Con un 10 dimensiones MCMC de la cadena, vamos a decir que estoy preparado para entregar a una matriz de los sorteos: de 100.000 iteraciones (en las filas) por 10 parámetros (columnas), cómo puedo identificar el posterior modos? Estoy especialmente preocupado con múltiples modos.

Antecedentes: me considero un cómputo inteligente estadístico, pero cuando un colega me preguntó, me daba vergüenza que yo no podía llegar con una razonable respuesta. La principal preocupación es que los múltiples modos puede aparecer, pero sólo si al menos ocho de las diez dimensiones que se consideran. Mi primer pensamiento sería el uso de un kernel de la estimación de la densidad, pero una búsqueda a través de R revelado nada prometedor para los problemas de más de tres dimensiones. El colega ha propuesto un ad-hoc binning estrategia en diez dimensiones y la búsqueda de una máxima, pero mi preocupación es que el ancho de banda puede dar lugar a una importante dispersión de los problemas o a la falta de resolución de discernir, de múltiples modos. Dicho esto, me gustaría que felizmente se aceptan sugerencias para la automatización de ancho de banda de sugerencias, enlaces a un 10 estimador de densidad de kernel, o cualquier otra cosa que usted sabe acerca de.

Preocupaciones:

  1. Creemos que la distribución puede ser bastante sesgada; por lo tanto, queremos identificar la parte posterior modo(s) y no de la parte posterior del medio.

  2. Nos preocupa que no puede ser de varios posterior modos.

  3. Si es posible, preferimos una R basado en la sugerencia. Pero cualquier algoritmo hacer que el tiempo no es muy difícil de implementar. Supongo que prefiero no poner N-d de densidad de kernel estimador con automatizados de selección de ancho de banda desde cero.

9voto

takrl Puntos 267

Ha considerado el uso de un vecino más cercano de aproximación ?

por ejemplo, la construcción de una lista de la k más cercana a los vecinos para cada uno de los 100'000 puntos y, a continuación, considere el punto de datos con la menor distancia de la kth al prójimo de un modo. En otras palabras: encontrar el punto con 'el más pequeño de la burbuja' que contiene k otros puntos alrededor de este punto.

No estoy seguro de la solidez de este, y de la elección de k es, obviamente, que influyen en los resultados.

7voto

Eggs McLaren Puntos 945

Esta es sólo una respuesta parcial.

Recientemente he utilizado figtree para multidimensional de densidad de kernel estimaciones. Es un C paquete y yo tengo que trabajar con bastante facilidad. Sin embargo, yo sólo se utiliza para estimar la densidad en un punto particular, no se calcular las estadísticas de resumen.

3voto

David Joyner Puntos 4994

Si se mantiene el registro de las probabilidades, usted puede seleccionar el uno con el valor más alto. También, si su interés es principalmente el modo, sólo haciendo una optimización para encontrar el punto con el registro más alto de probabilidad sería suficiente.

2voto

takrl Puntos 267

Han considerado que la 'PRIM / golpe de caza' ? (ver, por ejemplo, la Sección 9.3. de 'Los Elementos de Aprendizaje Estadístico' por Tibshirani et al. o pregunte a su motor de búsqueda favorito). No estoy seguro de si eso es implementado en R, aunque.

[ Por lo que entendía que están tratando de encontrar el modo de la densidad de probabilidad de que su 100'000 filas son dibujados. Así que el problema sería resuelto parcialmente por encontrar un adecuado density estimation método ].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X