En el nivel más alto, se puede pensar de todo tipo de prioridades como la especificación de una cierta cantidad de información que el investigador recoge en el análisis fuera de los datos en sí: antes de mirar los datos, que los valores de los parámetros son más probable?
En la edad oscura del análisis Bayesiano, cuando el Bayesians estaban peleando con frequentists, había una creencia de que el investigador quiere introducir como poca información para el análisis a través de la antes posible. Así que había un montón de investigación y de la discusión dedicado a la comprensión de cómo, precisamente, un antes podría ser "no informativo" de esta manera. Hoy en día, Gelman argumenta en contra de la selección automática de noninformative priores, diciendo en Bayesiano de Análisis de Datos que la descripción "noninformative" refleja su actitud hacia el antes de, en lugar de cualquier "especial" funciones matemáticas de la previa. (Por otra parte, había una pregunta en la literatura temprana de en qué escala previa es noninformative. No creo que esto es especialmente importante para tu pregunta, pero para un buen ejemplo de este argumento a partir de un frecuentista, ver el comienzo de Gary King, la Unificación Política de la Metodología.)
Un "plano" del anterior indica un uniforme de antes, donde todos los valores en el rango son igualmente probables. De nuevo, hay argumentos que se tenía acerca de si estos son realmente los informativos, ya que especificar que todos los valores son igualmente probables es, en cierto modo, la información, y puede ser sensible a cómo el modelo parametrizado. Plano de los priores tienen una larga historia en el análisis Bayesiano, que se remontan a la de Bayes y de Laplace.
Un "vago" antes es muy difusa, aunque no necesariamente plana, y expresa que un gran rango de valores plausibles, en lugar de concentrar la probabilidad de masa alrededor de una muy específica de la gama. Esencialmente, es un previo con alta varianza (lo que sea "alta" de la varianza significa en su contexto).
Conjugar los priores tienen la característica conveniente que, cuando se multiplica por la correspondiente probabilidad, que producen una forma cerrada de expresión. Un ejemplo de esto es la beta antes con el binomio de probabilidad, o la gamma antes con la probabilidad de poisson. No son útiles las tablas de estos en todo el Internet y la Wikipedia. La exponencial de la familia es muy conveniente en este sentido.
Conjugar los priores son a menudo el "defecto" de elección para algunos problemas debido a su conveniente propiedades, pero esto no significa necesariamente que ellos son los "mejores" a menos que un conocimiento previo puede ser expresada a través de la conjugado antes. Los avances en la computación significa que conjugacy no es tan preciado como lo fue una vez, por lo que fácilmente se puede realizar inferencia con nonconjugate priores sin mucho problema.
Hyper-los priores son reincidentes en la previa. Esto significa que en lugar de especificar, por ejemplo, un $N(\mu,\sigma^2)$ antes de un parámetro fijo de $\mu$$\sigma^2$, usted podría expresar un antes en el parámetro de $\mu$ y un previo en el parámetro de $\sigma^2$. La mayoría de las veces, este se utiliza en el modelado jerárquico, cuando usted cree que no es una característica común a todos los puntos de datos en cuestión (es decir, debido a que está realizando un análisis estadístico en las repeticiones de un mismo experimento), y que la variación en los datos, se explica como la causada por la asignación aleatoria de los parámetros de esta distribución a los puntos de datos.