15 votos

La conexión entre la estadística Bayesiana y modelado generativo

Puede alguien darme una buena referencia que explica la conexión entre la estadística Bayesiana y generativo técnicas de modelado? ¿Por qué solemos utilizar modelos generativos con técnicas Bayesianas?

Por qué es especialmente atractivo para el uso de la estadística Bayesiana en la ausencia de datos completos, en todo caso?

Tenga en cuenta que vengo de una máquina de aprendizaje orientado a la vista, y estoy interesado en leer más acerca de las estadísticas de la comunidad.

Cualquier buena referencia que analiza estos puntos sería muy apreciada. Gracias.

4voto

lomaxx Puntos 32540

En la máquina de aprendizaje de un completo modelo de probabilidad p(x,y) se llama generativa porque puede ser utilizado para generar los datos, mientras que un modelo condicional p(y|x) se llama discriminativo porque no especifica un modelo de probabilidad para p(x) y sólo se puede generar y dado de x. Ambos pueden ser estimados en Bayesiano de la moda.

La estimación bayesiana es inherentemente acerca de la especificación de un completo modelo de probabilidad y la realización de inferencia condicional en el modelo y los datos. Que hace que muchas Bayesiano de modelos generativos sentir. Sin embargo, para un Bayesiano de la distinción importante no es tanto acerca de cómo generar los datos, pero más acerca de lo que es necesario para obtener la distribución posterior de los parámetros desconocidos de interés.

El modelo discriminativo p(y|x) es parte de un modelo más grande, donde p(y, x) = p(y|x)p(x). En muchos casos, p(x) es irrelevante para la distribución posterior de los parámetros en el modelo p(y|x). Específicamente, si los parámetros de p(x) son distintos de p(y|x) y de los priores son independientes, entonces el modelo p(x) no contiene ninguna información acerca de los parámetros desconocidos del modelo condicional p(y|x), por lo que un Bayesiano no necesita el modelo.


En un nivel intuitivo, existe un claro vínculo entre la "generación de datos" y "cálculo de la distribución posterior." Rubin (1984) da la siguiente descripción excelente de este enlace:

enter image description here


La estadística bayesiana es útil dado que faltan datos, principalmente porque proporciona una forma unificada para eliminar la molestia de los parámetros de integración. Los datos faltantes pueden ser considerados como los (muchos) molestia parámetros. Propuestas alternativas, tales como el taponamiento en el valor esperado normalmente funcionan mal debido a que raramente podremos estimar los datos faltantes de las células con altos niveles de exactitud. Aquí, la integración es mejor que el de la maximización.

Discriminativo modelos como p(y|x) también se convierten en un problema si x incluye los datos que faltan, porque sólo tenemos datos para estimar p(y|x_obs) pero más sensata modelos han escrito con respecto a los datos completos p(y|x). Si usted tiene un modelo de probabilidad p(y,x) y Bayesiano, entonces está bien porque usted puede integrar sobre la falta de datos como lo haría con cualquier otra cantidad desconocida.

2voto

phaneron Puntos 1017

@Tristán: Espero que no te importa mi reelaboración de responder como estoy trabajando en cómo hacer el punto general tan transparente como sea posible.

Para mí, el principal de la penetración en las estadísticas es conceptualizar la repetición de las observaciones que variar - como ser generado por una probabilidad de generación de modelo, tal como Normal(mu,sigma). A principios de los años 1800,s la probabilidad de generación de modelos entretenido generalmente eran sólo para los errores de medición con la función de parámetros, tales como mu y sigma y priores de ellos confusa. Frecuentista enfoques tomaron los valores de los parámetros fijos y desconocido y por lo que la probabilidad de generación de modelos, a continuación, sólo a los involucrados las posibles observaciones. Bayesiano enfoques (con la debida priores) tienen la probabilidad de generación de modelos para posibles parámetros desconocidos y posibles observaciones. Estas probabilidad conjunta de generación de modelos de forma exhaustiva en cuenta todos los - para decirlo de manera más general posible incógnitas (tales como parámetros) y datos (tales como las observaciones). Como en el enlace de Rubin se dio, conceptualmente el teorema de Bayes, los estados sólo mantener las posibles incógnitas que (en la simulación), en realidad, genera posibles datos que fueron iguales (muy cerca) de los reales de datos (en el estudio).

Esta realidad fue muy representado claramente por Galton en dos etapas al tresbolillo en la década de 1800,s. Consulte la figura 5 > Stigler, Stephen M. 2010. Darwin, Galton y la estadística

la iluminación. Diario de la Sociedad Real de Estadística: Una Serie de 173(3):469-482. .

Es el equivalente, pero tal vez más transparente que

posterior = antes(posibles incógnitas posibles datos=datos)

de posterior ~ antes de la(posible incógnitas)*p(posibles datos=datos posibles incógnitas)

Nada nuevo para los valores que faltan en la primera como uno sólo añade posible incógnitas para un modelo de probabilidad de generación de los valores perdidos y trata a falta de tan sólo uno de los posibles datos (es decir, el 3 de observación fue que faltan).

Recientemente, aproximado Bayesiano de cálculo (ABC) ha tomado esta constructivo de dos etapas enfoque de simulación en serio cuando p(posibles datos=datos posibles incógnitas) no puede ser resuelta. Pero incluso cuando esto puede ser trabajado y la parte posterior fácilmente obtenible de la MCMC de muestreo (o incluso cuando la parte posterior está disponible directamente, debido a la antes de ser conjugado) Rubin, punto sobre esto en dos etapas de muestreo de construcción que facilitan su comprensión, no debe ser pasado por alto.

Por ejemplo, estoy seguro de que habría cogido lo @Zen hizo aquí Bayesians: esclavos de la probabilidad de la función? porque uno le necesarios para dibujar un posible desconocido c a partir de una previa (primera etapa) y, a continuación, dibuje una posible conocidas (datos) dado que c (etapa 2), que no habría sido una generación aleatoria como p(posible tambièn|c) no haber sido una probabilidad excepto para uno y sólo uno. c.

Desde @Zen "por desgracia, en general, esto no es una descripción válida de un modelo estadístico. El problema es que, por definición, fXiC(c) debe ser de una densidad de probabilidad para casi cada posible valor de c, que es, en general, claramente falso."

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X