¿Si tenemos una muestra de tamaño pequeño, la distribución previa influirá en la distribución posterior de mucho?
Respuestas
¿Demasiados anuncios?Sí. La distribución posterior para un parámetro $\theta$, dado un conjunto de datos ${\bf X}$ puede ser escrito como
$$ p(\theta | {\bf X}) \propto \underbrace{p({\bf X} | \theta)}_{{\rm likelihood}} \cdot \underbrace{p(\theta)}_{{\rm prior}} $$
o, como es más comúnmente aparecen en la escala logarítmica,
$$ \log( p(\theta | {\bf X}) ) = c + L(\theta;{\bf X}) + \log(p(\theta)) $$
La log-verosimilitud, $L(\theta;{\bf X}) = \log \left( p({\bf X}|\theta) \right)$, aumenta con el tamaño de la muestra, ya que es una función de los datos, mientras que el antes de la densidad no. Por lo tanto, como el tamaño de la muestra aumenta, el valor absoluto de a $L(\theta;{\bf X})$ cada vez es mayor, mientras que $\log(p(\theta))$ se queda fijo (para un valor fijo de $\theta$), por lo tanto la suma de $L(\theta;{\bf X}) + \log(p(\theta))$ hace más fuertemente influenciada por $L(\theta;{\bf X})$ como el tamaño de la muestra aumenta.
Por lo tanto, para responder directamente a su pregunta - la antes de la distribución se vuelve menos y menos relevantes, como se hace con creces por la probabilidad. Así, para un tamaño de muestra pequeño, el estado de la distribución juega un papel mucho más importante. Esto concuerda con la intuición, ya que, sería de esperar que antes de especificaciones de jugar un papel más importante cuando no hay gran cantidad de datos disponibles para refutar a ellos, mientras que, si el tamaño de la muestra es muy grande, la señal presente en los datos serán mayores que lo que a priori creencias fueron introducidas en el modelo.
Aquí es un intento de ilustrar el último párrafo de la Macro excelente (+1) respuesta. Muestra dos priores para el parámetro $p$ ${\rm Binomial}(n,p)$ distribución. Para un par de diferentes $n$, la parte posterior de las distribuciones se muestran al $x=n/2$ ha sido observado. Como $n$ crece, ambos posteriores se vuelven más y más concentrada en torno a $1/2$.
Para $n=2$ la diferencia es bastante grande, pero para $n=50$ no hay prácticamente ninguna diferencia.
Los dos priores a continuación se ${\rm Beta(1/2,1/2)}$ (negro) y ${\rm Beta(2,2)}$ (rojo). Las posteriores tienen los mismos colores que los priores que los que se derivan.
(Tenga en cuenta que para muchos otros modelos y otras suposiciones, $n=50$ no será suficiente para la previa no importa!)