17 votos

Muestreo a partir de una distribución inadecuada (utilizando MCMC y otros)

Mi pregunta básica es: ¿cómo se muestrea a partir de una distribución inadecuada? ¿Tiene siquiera sentido tomar muestras de una distribución inadecuada?

Comentario de Xi'an aquí aborda más o menos la cuestión, pero estaba buscando más detalles sobre esto.

Más específico para MCMC:

Cuando se habla de MCMC y se leen artículos, los autores hacen hincapié en haber obtenido distribuciones posteriores adecuadas. Está el famoso Geyer(1992) artículo en el que el autor se olvidó de comprobar si su posterior era correcto (por lo demás, un artículo excelente).

Pero, supongamos que tenemos una probabilidad $f(x|\theta)$ y una distribución previa inadecuada en $\theta$ tal que la posterior resultante también es impropia, y se utiliza MCMC para muestrear de la distribución. En este caso, ¿qué indica la muestra? ¿Hay alguna información útil en esta muestra? Soy consciente de que la cadena de Markov aquí es entonces transitoria o nula-recurrente. ¿Hay algún resultado positivo si es nulo-recurrente?

Finalmente, en la respuesta de Neil G aquí , menciona a

normalmente se puede muestrear (usando MCMC) de la posterior aunque sea impropia.

Menciona que este tipo de muestreo es común en el aprendizaje profundo. Si esto es cierto, ¿qué sentido tiene?

12voto

The Champ Puntos 6

Muestreo a partir de una posterior inadecuada (densidad) $f$ no tiene sentido desde un punto de vista probabilístico/teórico. La razón es que la función $f$ no tiene una integral finita sobre el espacio de parámetros y, en consecuencia, no puede vincularse a un modelo de probabilidad $(\Omega,\sigma,{\mathbb P})$ (espacio, sigma-álgebra, medida de probabilidad).

Si se tiene un modelo con una prioridad inadecuada que conduce a una posterior inadecuada, en muchos casos todavía se puede muestrear a partir de él utilizando MCMC, por ejemplo Metropolis-Hastings, y las "muestras posteriores" pueden parecer razonables. Esto parece intrigante y paradójico a primera vista. Sin embargo, la razón de esto es que los métodos MCMC están restringidos a las limitaciones numéricas de los ordenadores en la práctica, y por lo tanto, todos los soportes están acotados (¡y discretos!) para un ordenador. Entonces, bajo esas restricciones (acotadas y discretas) la posterior es realmente adecuada en la mayoría de los casos.

Hay una gran referencia de Hobert y Casella que presenta un ejemplo (de naturaleza ligeramente diferente) en el que se puede construir un muestreador de Gibbs para una posterior, las muestras posteriores parecen perfectamente razonables, ¡pero la posterior es impropia!

http://www.jstor.org/stable/2291572

Recientemente ha aparecido un ejemplo similar aquí . De hecho, Hobert y Casella advierten al lector de que los métodos MCMC no pueden utilizarse para detectar la impropiedad de la posterioridad y que esto debe comprobarse por separado antes de aplicar cualquier método MCMC. En resumen:

  1. Algunos muestreadores MCMC, como Metrópolis-Hastings, pueden (pero no deberían) utilizarse para muestrear a partir de una posterior impropia, ya que el ordenador acota y dicretiza el espacio de parámetros. Sólo si tiene enorme muestras, usted puede ser capaz de observar algunas cosas extrañas. Lo bien que se pueden detectar estas cuestiones también depende de la distribución "instrumental", pero este punto requiere una discusión más extensa, así que prefiero dejarlo aquí.
  2. (Hobert y Casella). No todos los muestreadores de Gibbs (modelos condicionales) asociados a priores impropios inducen una distribución posterior bien definida (modelo conjunto).
  3. Una interpretación probabilística formal de las muestras posteriores requiere la propiedad de las mismas. Los resultados y pruebas de convergencia se establecen sólo para distribuciones/medidas de probabilidad adecuadas.

P.D. (un poco en broma): No creas siempre lo que la gente hace en el aprendizaje automático. Como dijo el profesor Brian Ripley "el aprendizaje automático es la estadística menos la comprobación de los modelos y las suposiciones".

7voto

bheklilr Puntos 113

Dando un punto de vista alternativo, más aplicado, a partir de la excelente respuesta de Rod arriba -

En muchos casos, si no en la mayoría, la impropiedad de la posterior es el resultado de elecciones hechas por conveniencia, no un verdadero efecto de "estoy absolutamente seguro de mi función de verosimilitud y de mi distribución previa, ¡y mira lo que ha pasado!". Teniendo en cuenta esto, no deberíamos tomar la impropiedad demasiado en serio en nuestro trabajo aplicado a menos que vaya a estropear nuestros cálculos . Como alguien famoso (¿Huber? ¿Tukey?) observó una vez, en un contexto diferente, la diferencia entre un Cauchy estándar y un Cauchy truncado en $+/- 10^{100}$ es indetectable, pero uno no tiene momentos y el otro tiene momentos de todos los órdenes.

En este contexto, si tengo una distribución posterior para la demanda de perritos calientes en el AT&T Park el próximo fin de semana con una cola superior proporcional a $1/x$ En el caso de los algoritmos que calculan valores esperados, eso es una mala noticia, pero si lo trunco en el número estimado de personas en San Francisco, un número algo mayor que el número de perritos calientes que se venderán de hecho en el parque AT&T el próximo fin de semana, todo va bien, al menos en lo que respecta a la existencia de momentos. En este último caso, se puede pensar en ello como una especie de aplicación en dos fases de la real prior - uno que uso para el cálculo, que no tiene un límite superior, y la "característica extra" del mismo donde es igual a cero por encima de la población de San Francisco...", con la "característica extra" que se aplica en un paso posterior a la generación de la muestra. El real no es la que se utiliza en el cálculo MCMC (en mi ejemplo).

Así que, en principio, no me importaría utilizar una muestra generada por MCMC a partir de una distribución inadecuada en un trabajo aplicado, pero prestaría mucha atención a cómo se produjo esa inadecuación, y cómo se verá afectada la muestra aleatoria por ella. Idealmente, la muestra aleatoria no se vería afectada por ella, como en mi ejemplo de los perritos calientes, donde en un mundo razonable nunca se generaría un número aleatorio mayor que el número de personas en San Francisco...

También hay que tener en cuenta que los resultados pueden ser muy sensibles a la característica de la variable posterior que causó que fuera inadecuada, incluso si se trunca en algún número grande más tarde (o cualquier alteración que sea apropiada para su modelo). Esto puede ser más difícil de asegurar, pero es parte del problema más amplio de asegurarse de que sus resultados son robustos a sus supuestos, especialmente los que se hacen por conveniencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X