4 votos

Promediar posteriores bayesianos

¿Tiene sentido usar diferentes priors no informativos y luego tomar la media de todos los posteriors? Por ejemplo, usar (0,0), (0.5, 0.5), (1,1) y calcular tres posteriors y luego tomar la media. Mi pensamiento es que esto minimizará el error al usar el prior "incorrecto" (por así decirlo). Esto, por supuesto, se está haciendo si no podemos tener priors subjetivos. ¿Se ha investigado esto?

4 votos

Si no puedes elegir las priors, ¿por qué no usar hiperpriors para el parámetro de las priors? Esto es lo que se suele hacer en el contexto bayesiano.

0 votos

Hola Tim, gracias. ¿Podrías por favor ampliar? ¿Cuál sería el hiperprior para, digamos, una prior uniforme (1, 1)?

0 votos

Suponiendo que estás hablando de la distribución beta-binomial (por favor aclara), esto significaría asignar priors para los parámetros $\alpha, \beta$ de la distribución beta previa.

10voto

Jay Querido Puntos 589

No, por favor no hagan eso. La fuerza de Bayesiana de soluciones es que son subjetivos. La anterior es una buena cosa, y no algo que debe ser evitado. Lo que está haciendo es asumir que la muestra que se está trabajando es un buen ejemplo, y su conocimiento personal es de ningún valor. Parece que tu miedo es que de introducir un sesgo.

Todos los métodos Bayesianos son parciales. Que no es una mala cosa. Es sólo un hecho. Como el tamaño de la muestra es muy grande, la Bayesiano de modelos convertido en apenas sesgada si que ayuda.

Así que vamos a romper algunos de los supuestos en que la publicación que puede o puede no tener los resultados esperados. Voy a trabajar de atrás hacia adelante. Quieres saber acerca de un promedio posterior significa.

La posterior significa minimiza la pérdida cuadrática. A diferencia de un Frecuentista solución en la que esta es la respuesta, esto no es automático para Bayesiano pensamiento. Para dar un ejemplo de cuando una posterior o Frecuentista significa que sería un catastróficamente mala idea considerar el siguiente caso.

Usted tiene un submarino del proyecto de ingeniería, donde tienes que verter, en un solo vaciado, una estructura de hormigón. Si se vierte demasiado poco, usted tendrá que destruir el objeto y empezar de nuevo. Si usted termina con demasiado concreto, entonces usted acaba de desechar el exceso y nunca se vierte. Para hacer este interesante, hagamos de este un costoso evento. Cada pie cúbico de costos \$1,000, and the true parameter is 1,000 cubic feet. If you purchase and pour 999 cubic feet, you have to destroy it, buy new concrete and start over. The cost is \$999,000 en la pérdida de hormigón además de la demolición. Si usted compra 1,001 pies cúbicos, de los residuos es \$1,000.

Si usted elige pérdida cuadrática para estimar el parámetro de población, la mitad del tiempo que tardará pérdidas catastróficas, si utiliza la verdadera función de coste creado por los errores, usted puede construir una ponderado punto posterior estimador que minimiza el riesgo promedio de la pérdida.

No hay nada mágico acerca de la parte posterior de la media. Debe utilizarse cuando la pérdida real de estar equivocado es cuadrática. Una ecuación cuadrática de la pérdida es bastante común en el mundo real, especialmente en los juegos de azar. Recuerde, esto no es la pérdida creado por los juegos de azar mal, pero la estimación del parámetro incorrecto.

Es su mundo real de la pérdida cuadrática, en caso afirmativo, a continuación, utilizar la parte posterior de decir, pero si no, a continuación, utilizar la real función de pérdida?

Bayesiano soluciones adecuadas crear toda una posterior densidad. Si usted va a elegir un punto desde el que asegúrese de que su punto tiene sentido para usted. Como regla general, usted no puede un promedio de ellos ya que muchos no tienen buenas propiedades de la composición.

Ahora a la previa. Tim se menciona el uso de hyperparameters como su alternativa. Que es la luz de los dos parámetros para la beta anterior y la creación de funciones para cubrir antes de la incertidumbre de los parámetros. Es una especie de estado de promedio. Antes de ir allí, usted debe pensar acerca de lo que la información que usted tiene. Si no, luego las propiedades intrínsecas de los métodos Bayesianos desaparece, y el sesgo de no convertirse en un problema.

Vamos a empezar con la versión Beta (0,0) antes. Tiene masa infinita en 0 y 1 y masa mínima del 50%. ¿De verdad creen que es casi seguro exactamente de cero o uno? ¿De verdad creen que es poco probable que sea la mitad? Hacer una foto de ella; ¿coincide con sus creencias? La Beta (.5,.5), Jeffreys antes, hace la misma cosa. La derivada es diferente, pero todavía hay un infinito de peso en el cero y el uno. Porque ellos son simétricas priores, también el sesgo de la expectativa hacia la mitad. ¿Cree usted que el verdadero valor del parámetro a tener un cincuenta por ciento de probabilidad de estar en cualquiera de los lados de la mitad de marca?

El Haldane fue creado por un problema de la vida real, la Beta (0,0). Es a menudo el caso de la química, que tendrá que destruir a su muestra, y usted siempre puede tener un tamaño de muestra de uno. Es soluble en agua o no es soluble en agua (0-1)? Hice disolver? Ahora usted puede hacer una adecuada estadística declaración acerca de como hacer previo. También es el antes de que se asigna a la Frecuentista solución para el binomio. Es poco informativo, pero como usted puede ver, usted tiene tres "informativo de los priores." Todos los priores de transmitir la información, incluso de valor informativo.

El Jeffreys antes fue creado para ser invariantes a transformaciones monotónicas. Lo que importa porque la probabilidad declaraciones pueden mover con la transformación. Sólo el estimador de máxima verosimilitud es automáticamente invariante bajo la transformación. Tiene más información que el Haldane antes y no permite la doble cara de la moneda, que el Haldane antes. Su virtud es que usted puede hacer transformaciones de los datos sin una consecuencia de su inferencia.

Finalmente, hay una distribución uniforme, la Beta (1,1). Excepto para el caso de una doble cabeza de la moneda, los pesos de todas las posibilidades igualmente.

Ahora, aquí está el problema, ¿de verdad no tienen-de-muestra la información sobre el verdadero valor del parámetro? Por ejemplo, si usted estuviera haciendo la quiebra de la investigación, se puede estimar la quiebra de las tasas de tasas de interés del préstamo. Si la quiebra tipos de interés son altos, entonces las tasas de los préstamos tendría que ser mayor para cubrir el riesgo y obtener un beneficio. Mínimamente, el éxito es más probable que el fracaso para los negocios, al menos. Así que, sin saber nada más, debe tener una versión Beta(1,2), la distribución triangular, $\pi(\theta)=1-\theta$.

Ahora imaginemos que usted hable con un amigo que es un préstamo con un banco oficial y preguntar acerca de las pérdidas de préstamos y que le digan que es del 2%. Por supuesto, que incluye las pérdidas además de la bancarrota. Ahora usted tiene una versión Beta(2,98), por lo $\pi(\theta)=9702\theta(1-\theta)^{97}$.

Eso es un montón de información, y parcializados su resultado. Que es una buena cosa, porque el sesgo no es puro prejuicio. Es la información más ruido. Es el ruido que usted no quiere, pero no puede evitar. Mira el gráfico de esto antes.enter image description here

Se está dando el peso del material a nada menos que a ocho por ciento. Se ha reducido su espacio de búsqueda y se ha regularizado el largo plazo de la tasa, de modo que si usted golpea una carrera, tales como quiebras en una recesión importante, es normalizado por lo que será percibido por las matemáticas como raro (perdonar la antropización) y ser menor.

Lo que es más importante, se han utilizado los profesionales de la información desde fuera de la muestra. Que es perfectamente buena información. Está sesgada en que es una experiencia del banco y ciertamente se podría construir un mejor antes si tienes más información y tomó más tiempo para mirar.

Igual de importante, se conservan dos propiedades que el Bayesiano sesgo de paga, la admisibilidad y la coherencia.

Si usted utiliza su verdadero antes de entonces Bayesiano métodos no puede ser estocásticamente dominado. Además, si usted utiliza su verdadero antes de entonces usted puede colocar justo apuestas y función como corredor de apuestas. Usted no puede pensar que eso es valioso, pero el tendero es un corredor de apuestas para la fruta. Son los juegos de azar en el inventario y colocación de una apuesta en cuánto usted va a comprar y a qué precio. Frecuentista métodos no son coherentes.

Ahora vamos a hablar sobre el lado malo de este estado, el único que le preocupa a usted. Supongamos que recoger una muestra de 10.000 empresas y durante el período de tiempo de 10 de ir a la quiebra. La muestra de la quiebra de la tasa es .1%, pero el posterior decir es .11%. Ja, dicen, no es su sesgo. Que no es el sesgo. El sesgo es de que la tasa real. Si la tasa real es .12%, está sesgada a la baja. Si es .09%, luego está sesgada hacia arriba.

Usted no quiere preocuparse por el sesgo o por el mal antes. Lo que quiero hacer es encontrar la previa que funciona mejor para su problema, es decir, se codifica el conocimiento, cualquiera que sea, tan de cerca como usted puede hacer una fórmula de hacer eso.

Si quieres un estimador imparcial no uso de métodos Bayesianos. Si usted desea conseguir un exacto estimador, codificar su conocimiento en la previa. Si usted tiene varios de los priores, multiplicar juntos y normalizar a una o uso hyperparameters.

Parte de su anterior será inexacta sólo como una muestra contiene los valores atípicos o no de componentes estandarizados. Las muestras son malos también, por regla general solo no la puede ver porque no se ven. La previa regulariza y normaliza su muestra.

1 votos

Si pudiera darte 100 votos positivos, lo haría. Gracias por la respuesta detallada. Respondiste a todas mis preguntas. ¡¡¡Gracias amablemente!!!

1 votos

@HumeanDavid, entonces también deberías aceptar su respuesta :)

7voto

Lev Puntos 2212

La dificultad fundamental con el promedio de los posteriores es que los datos no tienen peso en dichos posteriores. Si la prior global es el promedio de tres posibles priors (con pesos $1/3$, $1/3$, $1/3$), el posterior no será el promedio de los posteriores correspondientes con pesos $1/3$, $1/3$, $1/3$, ya que los pesos dependerán de los datos.

Consulta la palabra clave averaging del modelo bayesiano para más detalles. Como por ejemplo en Hoeting et al. (1999). O estas diapositivas.

1 votos

Vale la pena mencionar que, simplemente porque el promedio ingenuo difiere de la BMA, esto no significa que el promedio ingenuo realmente funcione peor en la práctica. Por ejemplo, mi experiencia es que CART bayesiano a menudo funciona peor que muestrear ingenuamente árboles de decisión del anterior y promediar juntos las predicciones asociadas. Esto es en términos de error de predicción en datos retenidos, por ejemplo.

1voto

Balou Puntos 21

Suponga que su distribución posterior es multimodal. Si elige diferentes priors de manera que solo obtenga una región de alta probabilidad por prior, entonces su promedio de las medias estaría en algún lugar entre estas medias, pero probablemente en una región con baja masa. Así que es mejor no tomar el promedio de las medias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X