No, por favor no hagan eso. La fuerza de Bayesiana de soluciones es que son subjetivos. La anterior es una buena cosa, y no algo que debe ser evitado. Lo que está haciendo es asumir que la muestra que se está trabajando es un buen ejemplo, y su conocimiento personal es de ningún valor. Parece que tu miedo es que de introducir un sesgo.
Todos los métodos Bayesianos son parciales. Que no es una mala cosa. Es sólo un hecho. Como el tamaño de la muestra es muy grande, la Bayesiano de modelos convertido en apenas sesgada si que ayuda.
Así que vamos a romper algunos de los supuestos en que la publicación que puede o puede no tener los resultados esperados. Voy a trabajar de atrás hacia adelante. Quieres saber acerca de un promedio posterior significa.
La posterior significa minimiza la pérdida cuadrática. A diferencia de un Frecuentista solución en la que esta es la respuesta, esto no es automático para Bayesiano pensamiento. Para dar un ejemplo de cuando una posterior o Frecuentista significa que sería un catastróficamente mala idea considerar el siguiente caso.
Usted tiene un submarino del proyecto de ingeniería, donde tienes que verter, en un solo vaciado, una estructura de hormigón. Si se vierte demasiado poco, usted tendrá que destruir el objeto y empezar de nuevo. Si usted termina con demasiado concreto, entonces usted acaba de desechar el exceso y nunca se vierte. Para hacer este interesante, hagamos de este un costoso evento. Cada pie cúbico de costos \$1,000, and the true parameter is 1,000 cubic feet. If you purchase and pour 999 cubic feet, you have to destroy it, buy new concrete and start over. The cost is \$999,000 en la pérdida de hormigón además de la demolición. Si usted compra 1,001 pies cúbicos, de los residuos es \$1,000.
Si usted elige pérdida cuadrática para estimar el parámetro de población, la mitad del tiempo que tardará pérdidas catastróficas, si utiliza la verdadera función de coste creado por los errores, usted puede construir una ponderado punto posterior estimador que minimiza el riesgo promedio de la pérdida.
No hay nada mágico acerca de la parte posterior de la media. Debe utilizarse cuando la pérdida real de estar equivocado es cuadrática. Una ecuación cuadrática de la pérdida es bastante común en el mundo real, especialmente en los juegos de azar. Recuerde, esto no es la pérdida creado por los juegos de azar mal, pero la estimación del parámetro incorrecto.
Es su mundo real de la pérdida cuadrática, en caso afirmativo, a continuación, utilizar la parte posterior de decir, pero si no, a continuación, utilizar la real función de pérdida?
Bayesiano soluciones adecuadas crear toda una posterior densidad. Si usted va a elegir un punto desde el que asegúrese de que su punto tiene sentido para usted. Como regla general, usted no puede un promedio de ellos ya que muchos no tienen buenas propiedades de la composición.
Ahora a la previa. Tim se menciona el uso de hyperparameters como su alternativa. Que es la luz de los dos parámetros para la beta anterior y la creación de funciones para cubrir antes de la incertidumbre de los parámetros. Es una especie de estado de promedio. Antes de ir allí, usted debe pensar acerca de lo que la información que usted tiene. Si no, luego las propiedades intrínsecas de los métodos Bayesianos desaparece, y el sesgo de no convertirse en un problema.
Vamos a empezar con la versión Beta (0,0) antes. Tiene masa infinita en 0 y 1 y masa mínima del 50%. ¿De verdad creen que es casi seguro exactamente de cero o uno? ¿De verdad creen que es poco probable que sea la mitad? Hacer una foto de ella; ¿coincide con sus creencias? La Beta (.5,.5), Jeffreys antes, hace la misma cosa. La derivada es diferente, pero todavía hay un infinito de peso en el cero y el uno. Porque ellos son simétricas priores, también el sesgo de la expectativa hacia la mitad. ¿Cree usted que el verdadero valor del parámetro a tener un cincuenta por ciento de probabilidad de estar en cualquiera de los lados de la mitad de marca?
El Haldane fue creado por un problema de la vida real, la Beta (0,0). Es a menudo el caso de la química, que tendrá que destruir a su muestra, y usted siempre puede tener un tamaño de muestra de uno. Es soluble en agua o no es soluble en agua (0-1)? Hice disolver? Ahora usted puede hacer una adecuada estadística declaración acerca de como hacer previo. También es el antes de que se asigna a la Frecuentista solución para el binomio. Es poco informativo, pero como usted puede ver, usted tiene tres "informativo de los priores." Todos los priores de transmitir la información, incluso de valor informativo.
El Jeffreys antes fue creado para ser invariantes a transformaciones monotónicas. Lo que importa porque la probabilidad declaraciones pueden mover con la transformación. Sólo el estimador de máxima verosimilitud es automáticamente invariante bajo la transformación. Tiene más información que el Haldane antes y no permite la doble cara de la moneda, que el Haldane antes. Su virtud es que usted puede hacer transformaciones de los datos sin una consecuencia de su inferencia.
Finalmente, hay una distribución uniforme, la Beta (1,1). Excepto para el caso de una doble cabeza de la moneda, los pesos de todas las posibilidades igualmente.
Ahora, aquí está el problema, ¿de verdad no tienen-de-muestra la información sobre el verdadero valor del parámetro? Por ejemplo, si usted estuviera haciendo la quiebra de la investigación, se puede estimar la quiebra de las tasas de tasas de interés del préstamo. Si la quiebra tipos de interés son altos, entonces las tasas de los préstamos tendría que ser mayor para cubrir el riesgo y obtener un beneficio. Mínimamente, el éxito es más probable que el fracaso para los negocios, al menos. Así que, sin saber nada más, debe tener una versión Beta(1,2), la distribución triangular, $\pi(\theta)=1-\theta$.
Ahora imaginemos que usted hable con un amigo que es un préstamo con un banco oficial y preguntar acerca de las pérdidas de préstamos y que le digan que es del 2%. Por supuesto, que incluye las pérdidas además de la bancarrota. Ahora usted tiene una versión Beta(2,98), por lo $\pi(\theta)=9702\theta(1-\theta)^{97}$.
Eso es un montón de información, y parcializados su resultado. Que es una buena cosa, porque el sesgo no es puro prejuicio. Es la información más ruido. Es el ruido que usted no quiere, pero no puede evitar. Mira el gráfico de esto antes.
Se está dando el peso del material a nada menos que a ocho por ciento. Se ha reducido su espacio de búsqueda y se ha regularizado el largo plazo de la tasa, de modo que si usted golpea una carrera, tales como quiebras en una recesión importante, es normalizado por lo que será percibido por las matemáticas como raro (perdonar la antropización) y ser menor.
Lo que es más importante, se han utilizado los profesionales de la información desde fuera de la muestra. Que es perfectamente buena información. Está sesgada en que es una experiencia del banco y ciertamente se podría construir un mejor antes si tienes más información y tomó más tiempo para mirar.
Igual de importante, se conservan dos propiedades que el Bayesiano sesgo de paga, la admisibilidad y la coherencia.
Si usted utiliza su verdadero antes de entonces Bayesiano métodos no puede ser estocásticamente dominado. Además, si usted utiliza su verdadero antes de entonces usted puede colocar justo apuestas y función como corredor de apuestas. Usted no puede pensar que eso es valioso, pero el tendero es un corredor de apuestas para la fruta. Son los juegos de azar en el inventario y colocación de una apuesta en cuánto usted va a comprar y a qué precio. Frecuentista métodos no son coherentes.
Ahora vamos a hablar sobre el lado malo de este estado, el único que le preocupa a usted. Supongamos que recoger una muestra de 10.000 empresas y durante el período de tiempo de 10 de ir a la quiebra. La muestra de la quiebra de la tasa es .1%, pero el posterior decir es .11%. Ja, dicen, no es su sesgo. Que no es el sesgo. El sesgo es de que la tasa real. Si la tasa real es .12%, está sesgada a la baja. Si es .09%, luego está sesgada hacia arriba.
Usted no quiere preocuparse por el sesgo o por el mal antes. Lo que quiero hacer es encontrar la previa que funciona mejor para su problema, es decir, se codifica el conocimiento, cualquiera que sea, tan de cerca como usted puede hacer una fórmula de hacer eso.
Si quieres un estimador imparcial no uso de métodos Bayesianos. Si usted desea conseguir un exacto estimador, codificar su conocimiento en la previa. Si usted tiene varios de los priores, multiplicar juntos y normalizar a una o uso hyperparameters.
Parte de su anterior será inexacta sólo como una muestra contiene los valores atípicos o no de componentes estandarizados. Las muestras son malos también, por regla general solo no la puede ver porque no se ven. La previa regulariza y normaliza su muestra.
4 votos
Si no puedes elegir las priors, ¿por qué no usar hiperpriors para el parámetro de las priors? Esto es lo que se suele hacer en el contexto bayesiano.
0 votos
Hola Tim, gracias. ¿Podrías por favor ampliar? ¿Cuál sería el hiperprior para, digamos, una prior uniforme (1, 1)?
0 votos
Suponiendo que estás hablando de la distribución beta-binomial (por favor aclara), esto significaría asignar priors para los parámetros $\alpha, \beta$ de la distribución beta previa.
0 votos
Gracias, Tim. Mi pregunta era para beta binomial y hiperprioridades (alfa, beta). ¿Tiene sentido usar múltiples priors no informativos, por ejemplo (0, 0), (0.5, 0.5) y (1, 1)? ¿Calcular medias posteriores para los tres y sacar el promedio? Esto sería cuando no tenemos información previa en absoluto.
1 votos
Promediar ¿qué? Si se promedian las probabilidades devueltas, es posible que ya no sumen se integren a uno. ¿Por qué promediar tres priors arbitrarios arreglaría algo? ¿Por qué no dos, o 62 priors diferentes? El uso de hiperpriors hace exactamente eso: te permite integrar sobre todo un rango de posibles priors.
0 votos
Lo siento. Disculpa por la formulación deficiente de la pregunta. ¿Tendría sentido promediar las medias posteriores calculadas a partir de las tres previas no informativas (0, 0), (.5, .5) y (1, 1)? Ha habido varias anécdotas sobre promediar las respuestas finales de diferentes modelos que estaban cerca de la respuesta real.
1 votos
Dado que, como dije, el uso de hiperpriori parece hacer exactamente lo mismo pero utilizando un método que (a) es bastante estándar en el entorno bayesiano, (b) tiene justificación teórica dentro del marco bayesiano, ¿por qué en su lugar te gustaría usar un método arbitrario, que potencialmente te da resultados ininterpretables (probabilidades que no suman a uno)?
1 votos
¿Se refiere OP al promedio de modelos? El promedio de modelos no se basa en la incertidumbre en los parámetros de los priors. Como dijo @Tim, se utiliza un hiperprior. Está motivado por la incertidumbre inherente a cualquier ejercicio de modelado. Puedes utilizar algo como el WAIC para crear pesos para cada modelo candidato, luego calcular promedios ponderados.