22 votos

Más suave aproximación a la estadística Bayesiana

Recientemente he empezado a leer "Introducción a la Estadística Bayesiana" 2a Edición por Bolstad. He tenido una clase de introducción a las estadísticas de la clase que se trataba fundamentalmente de las pruebas estadísticas y estoy casi a través de una clase en el análisis de regresión. ¿Qué otros libros se puede utilizar para complementar mi entender este?

Yo la he hecho a través de la primera 100-125 páginas bien. Después, el libro comienza a hablar de pruebas de hipótesis que es lo que estoy muy emocionado de cubierta, pero hay un par de cosas a tirar de mí:

  • El uso de funciones de densidad de probabilidad en los cálculos. En otras palabras, ¿cómo evaluar estas ecuaciones.
  • Toda esta frase: "Supongamos que utilizamos una versión beta(1,1) antes de pi. Luego se le da y=8, la parte posterior de la densidad es la beta(9,3). La probabilidad posterior de que la hipótesis nula es..." yo creo beta(1,1) se refiere a un PDF en el que la media es 1 y el desvest es 1? No entiendo cómo se iba a cambiar a una versión beta(9,3) como posterior de la función de densidad.

Tengo el concepto de priores vs posteriores y entender cómo aplicar el uso de una tabla de forma manual. Puedo conseguir (creo!) que pi representa la supuesta población proporción o probabilidad.

No entiendo cómo conectar este junto con los datos ejecuto en una base de día a día y obtener resultados.

31voto

Nick Russo Puntos 51

El uso de funciones de densidad de probabilidad en los cálculos. En otras palabras, ¿cómo evaluar estas ecuaciones.

Creo que todavía estás pensando en esto desde un frecuentista perspectiva: si usted está buscando un punto de estimación, el posterior no le dará a usted. Poner los archivos Pdf, obtener archivos Pdf. Puede derivar estimaciones puntuales mediante el cálculo de las estadísticas de su distribución posterior, pero voy a llegar a eso en un poco.

Tengo el concepto de priores vs posteriores y entender cómo aplicar el uso de una tabla de forma manual. Puedo conseguir (creo!) que pi representa la supuesta población proporción o probabilidad.

$\pi(x)$ es lo mismo que $p(x)$: ambos son archivos Pdf. $\pi$ es sólo convencionalmente se utiliza para denotar que el PDF es un antes de la densidad.

Sospecho que usted no consigue los priores y posteriores así como que creo que sí, así que vamos a volver a la apuntalamiento fundamental de la estadística Bayesiana: Probabilidad Subjetiva.

Un Experimento de Pensamiento en la Probabilidad Subjetiva de

Digamos que me presente con una moneda y le pregunte si o no usted piensa que esta moneda es una moneda buena. Hemos escuchado a mucha gente hablar de injusto monedas en la probabilidad de la clase, pero usted nunca ha visto uno en la vida real, así que usted responde, "Sí, claro, creo que es una feria de moneda". Pero, el hecho de que incluso estoy haciendo esta pregunta pone un poco fuera, así que aunque su estimación es que es justo, que no se sorprenda si él no estaba. Mucho menos sorprendido que si has encontrado esta moneda en su bolsillo cambio (porque se supone que es todo real de la moneda, y usted realmente no confía en mí ahora mismo debido a que estoy actuando sospechosa).

Ahora, tenemos que ejecutar un par de experimentos. Después de 100 lanzamientos, la moneda le da la espalda 53 Cabezas. Tú eres mucho más seguros de que es una moneda, pero todavía estamos abiertos a la posibilidad de que no lo es. La diferencia es que ahora estaría muy sorprendido si esta moneda resultó tener algún tipo de sesgo.

¿Cómo podemos representar su previo y posterior de las creencias de aquí, específicamente, en cuanto a la probabilidad de que la moneda va a mostrar los jefes (que denominaremos a $\theta$)? En un frecuentista de configuración, antes de su creencia, su hipótesis nula, es que $\theta = 0.5$. Después de ejecutar el experimento, no eres capaz de rechazar el nulo, y para que continúe con la suposición de que sí, la moneda es probablemente justo. Pero, ¿cómo podemos encapsular el cambio en su confianza de que la moneda es justo? Después de que el experimento está en una posición en la que apuesto a que la moneda es justa, pero antes de que el experimento que habría sido trepidatious.

En el Bayesiano, encapsular su confianza en las proposiciones por no tratar probabilidades como valores escalares pero como variables aleatorias, es decir, funciones. En lugar de decir $\theta = 0.5$ nos dice $\theta \sim N(0.5, \sigma^2)$, y por lo tanto encapsular nuestra confianza en la varianza de los PDF. Si fijamos una alta varianza, lo que estamos diciendo, "creo que la probabilidad es de 0,5, pero no me sorprendería si la probabilidad de que yo en realidad observar en el mundo está muy lejos de este valor. Creo $\theta= 0.5$, pero, francamente, no estoy muy seguro." Mediante el establecimiento de una varianza baja, estamos diciendo, "No sólo creo que la probabilidad es de 0,5, pero yo estaría muy sorprendido si la experimentación proporciona un valor que no está muy cerca de a $\theta=0.5$." Así, en este ejemplo al iniciar el experimento previo con alta varianza. Después de recibir los datos que corrobora su previas, la media de los anteriores quedaron en el mismo, pero la varianza se convirtió en mucho más estrecho. Nuestra confianza en que $\theta=0.5$ es mucho mayor después de ejecutar el experimento que antes.

Entonces, ¿cómo podemos realizar cálculos?

Empezamos con los archivos Pdf, y nos encontramos con archivos Pdf. Cuando usted necesita reportar un punto de estimación, se puede calcular las estadísticas como la media, la mediana o el modo de su distribución posterior (dependiendo de su función de pérdida, que no me voy a meter ahora. Vamos a seguir con la media). Si usted tiene una solución de forma cerrada para el PDF, es probable que sea trivial para determinar estos valores. Si la parte posterior es complicado, usted puede utilizar procedimientos como la MCMC para muestra de su posterior y obtener las estadísticas de la muestra que usted dibujó.

En el ejemplo donde se tiene una Beta antes y un Binomial de probabilidad, el cálculo de la parte posterior se reduce a un muy limpio cálculo. Dado:

  • Antes: $\theta \sim Beta(\alpha, \beta)$
  • Probabilidad: $X|\theta \sim Binomial(\theta)$

A continuación, la parte posterior se reduce a:

  • Posterior: $\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Esto va a suceder en cualquier momento usted tiene una beta antes y un binomial de probabilidad, y la razón por la que debería ser evidente en los cálculos proporcionados por DJE. Cuando un particular antes-modelo de probabilidad siempre da un posterior que tenga el mismo tipo de distribución que la anterior, la relación entre los tipos de las distribuciones que se utilizan para la previa y probabilidad se llama Conjugado. Hay muchos pares de distribuciones que se han conjugado las relaciones, y conjugacy es muy frecuentemente aprovechado por Bayesians para simplificar los cálculos. Una determinada probabilidad, usted puede hacer su vida mucho más fácil la selección de un conjugado de antes (si existe y se puede justificar su elección de antes).

Yo creo que la beta(1,1) se refiere a un PDF en el que la media es 1 y el desvest es 1?

En el común de la parametrización de la distribución normal, los dos parámetros indican la media y la desviación estándar de la distribución. Pero eso es sólo cómo podemos parametrizar la distribución normal. Otras distribuciones de probabilidad son parametrizadas de forma muy diferente.

La distribución Beta es generalmente parametrizada como $Beta(\alpha, \beta)$ donde $\alpha$ $\beta$ son llamados "forma" de los parámetros. La distribución Beta es extremadamente flexible y se lleva un montón de diferentes formas dependiendo de cómo estos parámetros se establecen. Para ilustrar cómo los diferentes esta parametrización es a partir de su hipótesis original, aquí es cómo calcular la media y la varianza para la Beta variables aleatorias:

\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}

Como se puede ver claramente, la media y la varianza no son parte de la parametrización de esta distribución, pero han cerrado el formulario de soluciones que son simples funciones de los parámetros de entrada.

No voy a entrar en detalle las diferencias en las parametrizaciones de otras distribuciones, pero te recomiendo un vistazo a un par. Cualquier texto básico, Wikipedia aún, debe algo a describir cómo el cambio de los parámetros que se modifica la distribución. Usted también debe leer sobre las relaciones entre las diferentes distribuciones (por ejemplo, $Beta(1,1)$ es lo mismo que $Uniform(0,1)$).

9voto

user777 Puntos 10934

Una distribución beta tiene la forma $p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$. Una versión beta(1,1) tiene una distribución de los parámetros de $(\alpha, \beta)=(1,1)$. (Por desgracia, este tipo de estadísticos de resumen coloca una carga sobre el lector para saber cómo funciona el modelo en particular es parametrizada!)

La beta antes con una probabilidad binomial (número fijo de ensayos con los resultados binarios y fija las probabilidades de éxito/fracaso) tiene la propiedad de conjugacy, que permite el posterior (el producto de la previa y la probabilidad) para ser escrito en la forma cerrada:

\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}

Para el ejemplo concreto en el texto, el autor indica que una versión beta(1,1) antes con los datos de n=10 y y=8 produce una beta(1+8,1+2)=beta(9,3) posterior distribución en $\theta$.

De esta forma cerrada de expresión es conveniente, pero no necesario. Multiplicando la probabilidad de densidades se puede hacer de la misma manera como la multiplicación de otras expresiones matemáticas; las dificultades de llegar, ya que muchos productos de densidades no son tan fáciles de escribir como la beta antes de/binomial de probabilidad. Afortunadamente, aquí es donde los equipos tomen el relevo.

8voto

Andrew Puntos 1119

Si usted está buscando un enfoque más suave que puedo recomiendo el libro por Kruschke que utiliza R para explicar los conceptos básicos. Es un programa muy práctico y enfoque práctico en el aprendizaje de la estadística Bayesiana y en su sitio web, usted puede encontrar todos los códigos utilizados.

Alguien también se recomienda el texto de la Cam.Davidson.Pilon para mí, no mirarlo, pero se puede encontrar aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X