Mi pregunta no pretende ser una crítica de los métodos bayesianos; Simplemente estoy tratando de entender el punto de vista bayesiano. ¿Por qué es razonable creer que conocemos la distribución de nuestros parámetros, pero no nuestros datos dados los parámetros?
Respuestas
¿Demasiados anuncios?Así, en la estadística Bayesiana, no sólo "hacer" a tu priores. Usted debe ser la construcción de una antes de que capta mejor su conocimiento antes de ver los datos. De lo contrario, ¿por qué una persona debe preocuparse por el resultado de su análisis Bayesiano es muy difícil de justificar.
Así que si bien es cierto que el practicante tiene un sentido de la libertad en la creación de un antes, debe atarse a algo significativo para que un análisis sea útil. Con eso dicho, la anterior no es la única parte de un análisis Bayesiano que permite esta libertad. Un profesional se ofrece la misma libertad en la construcción de la función de probabilidad, que define la relación entre los datos y el modelo. Así como el uso de las tonterías de los priores conducirá a una tontería posterior, mediante una tontería probabilidad conducirá también a un sin sentido posterior. Así, en la práctica, idealmente, uno debe eligió una probabilidad función de que es lo suficientemente flexible como para manejar la incertidumbre, sin embargo, limitada suficiente para hacer inferencia con datos limitados posible.
Para demostrar, considere dos algo ejemplos extremos. Supongamos que estamos interesados en determinar el efecto de un continuo de valores de tratamiento en los pacientes. En el fin de aprender algo a partir de los datos, se debe la elección de un modelo con esa flexibilidad. Si fuéramos simplemente dejar fuera "tratamiento" de nuestro conjunto de parámetros de regresión, no importa lo que nuestro resultado fue, podríamos informar "a la vista de los datos, nuestras estimaciones del modelo no hubo efecto de tratamiento". En el otro extremo, supongamos que tenemos un modelo tan flexible que no podemos limitar el efecto del tratamiento a que tienen un número finito de discontinuidades. Entonces, (sin fuertes priores, al menos), tenemos casi ninguna esperanza de tener algún tipo de convergencia de nuestra estimación del efecto del tratamiento, no importa nuestro tamaño de la muestra. Por lo tanto, nuestra inferencia puede ser completamente masacrados por las malas decisiones de probabilidad de funciones, como podría ser por las malas decisiones de los priores.
Por supuesto, en realidad nosotros no eligió a ninguno de estos dos extremos, pero todavía nos hacen estos tipos de opciones. La flexibilidad de un efecto del tratamiento se le va a permitir: lineal, splines, la interacción con otras variables? Siempre hay un equilibrio entre "lo suficientemente flexibles" y "estimatable dado nuestro tamaño de muestra". Si somos inteligentes, nuestra probabilidad de funciones debería incluir restricciones (es decir, el tratamiento continuo del efecto del tratamiento probablemente relativamente suave, probablemente no incluye orden muy alto los efectos de la interacción). Este es esencialmente el mismo arte, como la recogida previa: usted desea limitar su inferencia con el conocimiento previo, y que permiten una mayor flexibilidad en la que hay incertidumbre. El punto entero de uso de datos para ayudar a restringir algunos de que la flexibilidad que se deriva de nuestra incertidumbre.
En resumen, un practicante de la libertad en la selección tanto de la previa y la probabilidad de la función. En el fin de un análisis de todos modos significativos, ambas opciones deben ser relativamente buena aproximación de los fenómenos reales.
EDITAR:
En los comentarios, @nanoman nos trae un interesante sobre el problema. Una manera en que podemos pensar que la función de probabilidad es un genérico, no subjetiva de la función. Como tal, todos los posibles modelos pueden ser incluidos en la forma funcional de la probabilidad antes de la previa. Pero normalmente, el estado sólo pone positiva de probabilidad sobre un conjunto finito de formas funcionales de la probabilidad. Por lo tanto, sin el consentimiento previo, la inferencia es imposible ya que la probabilidad sería demasiado flexible para siempre la forma de la inferencia.
Si bien esta no es la definición universalmente aceptada de antes y la probabilidad de la función, este punto de vista tiene un par de ventajas. Para uno, esto es muy natural en el modelo Bayesiano de selección. En este caso, en lugar de simplemente poner los priores de los parámetros de un modelo único, el estado pone de probabilidad sobre un conjunto de modelos de la competencia. Pero, en segundo lugar, y creo que más a @nanoman el punto, es que este punto de vista limpiamente divide la inferencia en subjetiva (antes) y no subjetiva (función de probabilidad). Esto es bueno, porque demuestra claramente que uno no puede aprender nada sin un poco de limitaciones subjetivas como la probabilidad de que sería demasiado flexible. También demuestra claramente que una vez que alguien te entrega un manejable probabilidad de la función, algunos subjetiva de la información debe tener metido.
En el caso de muchos de los problemas en las estadísticas que tiene algunos datos, vamos a denotar como $X$, y quieren aprender acerca de algunos "parámetro" $\theta$ de la distribución de los datos, es decir, calcular el $\theta|X$ tipo de cosas (condicional distribución, esperanza condicional etc.). Hay varias maneras de cómo se consigue esto, incluyendo el de máxima verosimilitud, y sin entrar en la discusión de si y cual de ellos es mejor, puede considerar la posibilidad de utilizar el teorema de Bayes, como uno de ellos. Una de las ventajas de utilizar el teorema de Bayes, es que vamos directamente dado que usted sabe condicional de la distribución de los datos dado el parámetro (probabilidad) y la distribución del parámetro (antes), entonces usted simplemente calcular
$$ \overbrace{p(\theta|X)}^\text{posterior} = \frac{\overbrace{p(X|\theta)}^\text{probabilidad}\;\overbrace{p(\theta)}^\text{antes}}{p(X)} $$
Probabilidad de la distribución condicional de los datos, así que es cuestión de la comprensión de los datos y la elección de algunos de distribución que se aproxima a lo mejor, y es bastante controvertida en el concepto. Como antes, aviso que para la fórmula anterior para el trabajo que usted necesita algunos antes. En un mundo perfecto, usted sabe a priori la distribución de $\theta$ y se aplica para obtener la parte posterior. En el mundo real, esto es algo que se asume, dado su mejor conocimiento, y el plug-in para el teorema de Bayes. Usted podría elegir un "informativo" antes de $p(\theta) \propto 1$, pero hay muchos argumentos que tales suposiciones no son ni "informativo", ni razonable. Lo que estoy tratando de decir, es que hay muchas maneras de cómo usted puede venir para arriba con algunas distribución de previo. Algunos consideran que los priores como una bendición, ya que hacen posible llevar sus datos de conocimiento en el modelo, mientras que otros, por exactamente la misma razón, las considera como problemática.
Para responder a tu pregunta, asegúrese de que usted puede asumir que la distribución del parámetro de datos es algo. En el día a día de todo el tiempo de nuestra toma de decisiones se basa en algunos supuestos, que no siempre están rigurosamente validados. Sin embargo, la diferencia entre el anterior y el posterior es que la parte posterior es algo que aprendí de los datos (y el anterior). Si no lo es, pero su conjetura, entonces no se trata de un trabajo posterior. Como acerca de por qué nos dejamos "maquillaje" de los priores, hay dos respuestas dependiendo de a quién le preguntes: o es que (a) para que la maquinaria funcione necesitamos un poco antes, o (b) algo sabemos de antemano que desea incluir en nuestro modelo, y gracias a los priores esto es posible. En cualquier caso, normalmente se espera que los datos tienen "la última palabra" en lugar de los priores.
Filosóficamente, no hay nada de malo con "la obtención de una posterior." Es un poco más difícil de hacer de un modo coherente, que con los priores (porque es necesario para el respeto de la probabilidad), pero IMO usted está pidiendo una muy buena pregunta.
Para convertir esto en algo práctico, "inventando" una posterior es potencialmente útil para obtener una antes. Es decir, puedo tomar todos los datos realizaciones $X = x$ y me pregunto, ¿qué la parte posterior de la $\pi(\theta \mid x)$ sería. Si puedo hacer esto de una manera que es consistente con la probabilidad, a continuación, voy a tener de un modo equivalente especificado $\pi(\theta)$. Esto a veces se llama "downdating." Una vez que te das cuenta de esto, verás que "hacer la previa" y "hacer el posterior" son básicamente la misma cosa. Como ya he dicho, es complicado hacer este ina manera que es consistente con la probabilidad, pero incluso si usted no es solo para unos valores de $x$ puede ser muy esclarecedor sobre lo que es una buena previa.