5 votos

Marcos para modelar el conocimiento previo distintos de la estadística bayesiana

Tengo entendido que se puede modelar fácilmente el conocimiento previo sobre las variables o incluso los modelos con la estadística bayesiana. En cierto modo, la estadística bayesiana "obliga" a pensar en el conocimiento previo y a modelizarlo explícitamente con distribuciones. También tengo entendido que lo único que está "fijado" (proporcionado) en la estadística bayesiana es "el estimador real", mientras que en la estadística frecuentista hay muchos tipos de estimadores definidos teóricamente, y mucha ciencia se dedica a ello.

  1. ¿Es correcto lo que he entendido arriba?
  2. ¿Existen otros marcos que ayuden a un modelador definir las creencias previas explícitamente que la estadística bayesiana? Quizás marcos que no requieran, por ejemplo normalización como basado en la energía modelos ? ¿O es la estadística bayesiana el único marco en el que el razonamiento sobre el conocimiento previo está bien definido?

5voto

Dipstick Puntos 4869

Hay alternativas, por ejemplo, se puede utilizar la optimización restringida, o la regularización. Sin embargo, hay que tener en cuenta que, en la mayoría de los casos, estos enfoques pueden considerarse como una inferencia bayesiana disfrazada. Por ejemplo, restringir el rango del parámetro durante la optimización, es lo mismo que usar una prioridad plana sobre este rango. Utilizando $L_2$ La regularización es la misma que la utilización de las priores gaussianas.

Además, en la inferencia bayesiana no se necesita también la nomalización. Tanto para MCMC como para la optimización, se puede trabajar con densidades no normalizadas. Con Cálculo bayesiano aproximado puede incluso resolver problemas en los que la probabilidad no se especifica como una distribución de probabilidad.

Por último, una de las razones de la popularidad del enfoque bayesiano es que se termina con una distribución de probabilidad para las estimaciones (posterior), que cuantifica la incertidumbre sobre las estimaciones. Esto no está disponible directamente en otros enfoques.

4voto

Cliff AB Puntos 3213

Una forma de incorporar la información previa al estimador es a través de la verosimilitud (o del modelo, según se mire). Es decir, cuando construimos un modelo paramétrico estándar, nos estamos limitando a decir que vamos a permitir que el modelo siga una forma muy específica, que conocemos hasta los valores de los propios parámetros. Si estamos aproximadamente en lo cierto sobre esta forma, deberíamos tener una estimación más eficiente que un modelo más general con más parámetros. Por otro lado, si nuestro "conocimiento previo" es muy inadecuado y esta restricción es demasiado rigurosa, deberíamos introducir muchos sesgos en nuestro modelo.

Como ejemplo bastante moderno, las Redes Neuronales Convolucionales (CNN) son actualmente el estado del arte para la clasificación de imágenes, y lo hacen considerablemente mejor que las NN totalmente conectadas. La única diferencia entre una CNN y una NN estándar es que en las capas superiores, las CNN sólo permiten las interacciones locales, mientras que una NN totalmente conectada no se preocupa por la proximidad de dos píxeles. En otras palabras, los modelos CNN son un subconjunto propio de las NNs vainilla, donde muchos de los parámetros de nivel superior se establecen en 0. Esto se basa en el conocimiento previo de que es muy probable que los píxeles cercanos estén relacionados, por lo que al restringir el modelo totalmente conectado, obtenemos una estimación más eficiente. Empíricamente, utilizando esta información previa sobre cómo creemos que deberían funcionar las interacciones entre los píxeles, hemos mejorado nuestras predicciones para la clasificación de imágenes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X