Soy estudiante de doctorado y actualmente estoy estudiando inferencia bayesiana sobre modelos de vectores autorregresivos. Muchos investigadores cuando se habla de poco informativo previo, concluyen que los resultados de la inferencia son iguales a lo que podemos obtener mediante OLS. Mi pregunta es: Si esto es cierto, ¿por qué debo utilizar inferencia bayesiana en vez de OLS?
Respuestas
¿Demasiados anuncios?Primero de todo, no hay tal cosa como el "valor informativo de los priores" (preferimos hablar de "débilmente informativo" reincidentes), cada uno de los anteriores trae algún tipo de hipótesis en el modelo. Por otro lado, la mayor información de sus datos de proporcionar, al menos influyente en la previa se hace.
Pero tomar esto a un lado, con el "informativo" de los priores el punto de estimaciones a partir de su modelo son los mismos que si se utiliza la estimación de máxima verosimilitud (ver este discutido para la regresión lineal). Entonces, ¿por qué utilizamos la estimación Bayesiana con valor informativo de los priores? Bueno, si usted está interesado sólo en punto de las estimaciones, es básicamente el mismo. Sin embargo, con la estimación Bayesiana lo que se obtiene es una distribución posterior de los parámetros, tanto más información, a continuación, utilizando máxima verosimilitud. Este es el más elemental de diferencia. Hay más diferencias, pero todas ellas siguen el hecho de lo que disponemos de un modelo probabilístico y necesitaríamos un libro entero para hablar de todos ellos.
Voy a piggy-back en @Tim respuesta, pero con un poco más de detalle.
Como Tim dijo, con un plano previo, su punto de estimaciones serán muy similares. Si su Bayesiano punto de estimación es el máximo posterior (MAPA) estimación, siempre será exactamente el mismo que el uso de la MLE, por definición. Si su posterior distribución es simétrica y unimodal, luego la posterior significa también ser exactamente como el MLE estimación. Además, si la posterior distribución es Gaussiana, a continuación, utilizando el MLE para el punto de estima le dará el mismo punto de las estimaciones de la MLE y utilizando el Pescador de la información para describir la covarianza le va a devolver exactamente la misma distribución que la distribución posterior.
De hecho, el MLE teoría nos dice que, bajo ciertas condiciones, el registro de la probabilidad (o registro posterior de la densidad con una tv de antes) asintóticamente enfoque de una función cuadrática. Si el registro de la distribución posterior es cuadrática, esto resulta ser exactamente el mismo que el posterior se Gaussiano. En otras palabras, asintóticamente, el uso de la MLE para la inferencia es exactamente el mismo como el uso de la completa distribución posterior con una tv de antes.
Lo que esto significa es que si usted va a utilizar un plano previo, sólo se debe considerar el uso de Bayesiana métodos MCMC si usted está preocupado de que asintótica aproximaciones no son lo suficientemente precisos. Cuando se trata de un problema? Estoy seguro de que hay un montón de otros ejemplos que no se ajustan a esta regla, pero yo diría que el más común de los casos usted debe estar preocupado es el caso cuando el número de muestras por parámetro de ajuste es bajo (recordar que uno de los necesarios presupuestos para el MLE asymptotics es que el número de parámetros de ajuste dividido por observaciones tiende a 0). Por ejemplo, considere la posibilidad de modelos de efectos mixtos. En estos casos, tenemos al menos uno de los parámetros por tema (aunque muchas observaciones por sujeto). En este caso, es práctica común el uso de ReML en lugar de MLE estimaciones para obtener la varianza de las estimaciones, como el MLE estimaciones de la variación son bien conocidos por ser sesgada a la baja, y problemáticamente así que cuando usted tiene tantos parámetros a estimar. Sin embargo, utilizando un enfoque Bayesiano, no hay problema: sólo una muestra de la parte posterior y no te preocupes!
Además de las grandes respuestas ya publicadas, antes de decidir qué método utilizar, primero debe decidir lo que usted quiere saber. Esto es importante porque frecuentista y Bayesiana de los métodos de responder a diferentes preguntas.
Frequentists está preocupado acerca de las propiedades estadísticas de los procesos que se utilizan para calcular, en el ejemplo, un intervalo de confianza. No importa si el intervalo de confianza se calcula a partir de los datos que contiene su verdadero parámetro. Más bien, ellos se preocupan de que, después de un millón de intervalos de confianza se calculan a través de un determinado proceso, una cierta proporción de ellos está garantizado para contener el verdadero parámetro.
Bayesians, por otra parte, la atención acerca de qué información se puede extraer de los datos. Ellos quieren saber cómo de ancho de un intervalo debe ser, dada su específica de datos, a fin de contener un parámetro determinado con algunos pre-seleccionados de la probabilidad.
Así que si usted desea cuantificar las propiedades estadísticas de un determinado proceso, para el análisis de los datos, a continuación, frecuentista métodos son el camino. Si, por otro lado, usted quiere saber lo que sus datos está diciendo usted, entonces usted debe utilizar métodos bayesianos.
El hecho de que, bajo ciertas condiciones muy específicas, ambos ofrecen similares numéricamente las respuestas no deben tomar distancia del hecho de que ellos están respondiendo a diferentes preguntas.
Hay varias razones para utilizar un método Bayesiano en lugar de un Frecuentista o Likelihoodist método. Esto es aún más cierto para la autorregresión vectorial.
En primer lugar, permítanme comenzar con un ejemplo trivial de lo que parece ser "no hay diferencias", bajo un trivial y simple problema. El ejemplo viene de Thomas Bayes artículo original que resuelto el teorema de Bayes.
Su método implicó una mesa de billar, pero vamos a simplificar automatizado de generación de números aleatorios. Su ejemplo es más bonito en el que la física, la Frecuentista de la interpretación, y la interpretación Bayesiana está obviamente vinculado.
Esta es una partida de dos jugadores. El primer paso es generar un número aleatorio entre 0 y 1, denotado $\theta.$ números Aleatorios se generan entre el cero y el uno para cada ronda del juego. Si el número aleatorio es menor o igual a$\theta$, a continuación, la primera de las puntuaciones de los jugadores, de lo contrario el segundo jugador puntuaciones. El primer jugador a seis puntos gana.
Ahora imaginemos un score de 5-3, ¿cuáles son las probabilidades de que el jugador de los dos ganará? Es aquí que Pearson-Neymar Frecuentista, Fisherian Likelihoodist Bayesiano y métodos divergentes.
Para el Frecuentista y la Likelihoodist, la estimación de la probabilidad de ganar cada ronda para el jugador dos es $3/8^{ths}$. La probabilidad de que el jugador dos de ganar tres rondas en una fila es $$\frac{3}{8}^3.$$, Esto es aproximadamente 18:1 probabilidades contra el jugador dos.
Para el Bayesiano la cuestión es diferente. En primer lugar, la probabilidad posterior tiene que ser resuelto, que es una distribución y no una estimación de punto. Con un plano antes de donde $p(\theta)\propto{1}$, la probabilidad posterior bajo una probabilidad binomial es $504\theta^3(1-\theta)^5$. Debido a que esta es una distribución, debemos promedio a lo largo de toda la parte posterior para hacer una predicción y eliminar la incertidumbre respecto de las $\theta.$ Esto se resuelve mediante el cálculo de $$\int_0^1504\theta^3\theta^3(1-\theta)^5.$$ The extra $\theta^3$ es la probabilidad de ganar tres en una fila, mientras que el resto es la parte posterior. La resultante de calcular las probabilidades son de 10:1 en contra en el segundo jugador en ganar. Que no es trivial diferente de la Frecuentista o Likelihoodist probabilidades. Además, un corredor de apuestas utilizando hipótesis nula de estos métodos podría ser "holandés reservado" o en términos más simples, un jugador o un conjunto de jugadores que se podría construir una combinación convexa de los juegos que iba a crear un triunfo seguro para sí mismos debido a que el cálculo de las diferencias.
Una predicción Bayesiana automáticamente no tiene el mismo valor que las predicciones de la hipótesis nula. El no-método Bayesiano puede nunca estocásticamente dominar el método Bayesiano, pero el método Bayesiano puede estocásticamente dominar la hipótesis nula método.
Que se debe utilizar? Depende de lo que están haciendo con la predicción. Si usted está probando si algún régimen monetario de los impactos alguna medida de salida, entonces usted debe utilizar una hipótesis nula método. Si usted va a la base de un presupuesto o un juego de alguna manera en el resultado, entonces usted debe utilizar el método Bayesiano. Bayesiano soluciones son intrínsecamente coherente y admisible, es decir, que se puede jugar en ellos y que no es menos riesgoso camino para la construcción de una estimación.
Si bien es cierto que si el verdadero modelo tiene una distribución normal de los datos, a continuación, en un plano antes de que usted va a obtener resultados equivalentes cuando hay tres o menos de tres variables independientes, esto no será cierto para tres o más en la regresión. Esto es debido a Stein paradoja. En ese caso, siempre se puede construir un modelo Bayesiano que será superior a la de una hipótesis nula método, a pesar de que usted no puede utilizar un "plano" de antes ya que no se integra a la unidad.
Por último, para los individuos en la macroeconomía y en los mercados de capital, no Bayesiano métodos no son soluciones válidas. Hasta ahora, todo el mundo acaba de asumir la distribución de los datos subyacentes a la existencia. Era generalmente normal o lognormal. He escrito un documento derivados de la distribución de los datos subyacentes. Me demuestran que no hay suficiente estadística y la que menos plazas crea graves errores de estimación. Para los mercados de capitales, se sobrestima devuelve un dos por ciento por año y subestima el riesgo por cuatro por ciento anual.
Para entender la magnitud de ese sesgo, había una predicción ha hecho cien años atrás, en el actual ingreso per cápita de las personas bajo el Raj Británico, el error habría puesto de la India el ingreso per cápita entre España y Portugal. La India podría ser la economía más grande del mundo.
Aunque los trabajos están en valores de renta variable, principalmente, se aplica a cualquier modelo en el que el capital en ella. Usted puede encontrar estos documentos en https://papers.ssrn.com/sol3/cf_dev/AbsByAuth.cfm?per_id=1541471 .