Siempre he tenido la siguiente pregunta: ¿Cómo se deciden los priores bayesianos en la vida real?
He creado el siguiente escenario para plantear mi pregunta: Suponga que es usted investigador y está interesado en estudiar si se puede predecir la edad de una jirafa por su peso y altura (por ejemplo, modelo de regresión lineal: edad = b_o + b_1 altura + b_2 peso). Llegas a un parque nacional para registrar las mediciones de las jirafas, pero después de tomar las medidas de unas pocas jirafas, se produce una terrible tormenta y tienes que detener tu estudio. Sólo has tenido tiempo de medir 15 jirafas:
weight height age
1 2998.958 15.26611 53
2 3002.208 18.08711 52
3 3008.171 16.70896 49
4 3002.374 17.37032 55
5 3000.658 18.04860 50
6 3002.688 17.24797 45
7 3004.923 16.45360 47
8 2987.264 16.71712 47
9 3011.332 17.76626 50
10 2983.783 18.10337 42
11 3007.167 18.18355 50
12 3007.049 18.11375 53
13 3002.656 15.49990 42
14 2986.710 16.73089 47
15 2998.286 17.12075 52
Lamentablemente, esta información no es suficiente para completar su estudio. Sin embargo, investigas un poco y descubres que este tipo de mediciones se han realizado en jirafas en el pasado. Por ejemplo:
Estudio 1 : En 1800 se realizó un estudio en el que se midieron 1000 jirafas y se descubrió que la altura media de esas jirafas era de 17 pies, el peso medio era de 2800 libras y la edad media era de 35 años. Sin embargo, esto se hizo en el siglo XIX y es dudoso que las mediciones no hayan sido tan precisas en ese entonces, y los problemas en el medio ambiente (por ejemplo, la caza furtiva) podrían haber causado que las jirafas cambiaran de tamaño.
Estudio 2 : Un estudio se hizo en 2010 fueron 50 jirafas en los zoológicos de todo el mundo y su altura era de 16 pies, el peso era de 300 libras y la edad era de 50 años. Este estudio es más reciente, pero es escéptico que las jirafas en los zoológicos podrían ser diferentes de las jirafas en la naturaleza.
Estudio 3 : Un experto en jirafas cree firmemente que la edad, la altura y el peso de las jirafas tienen distribuciones en forma de campana. El experto también cree que las jirafas siguen creciendo durante toda su vida, es decir, que a medida que aumenta la edad, también lo hacen el peso y la altura. No tiene cifras concretas, pero se le considera el principal experto.
etc.
Pregunta: En este problema, ¿es posible complementar las limitadas mediciones que se tienen, junto con los conocimientos previos disponibles sobre las jirafas (teniendo en cuenta su fiabilidad)? ¿Es este problema un ejemplo de cómo se pueden utilizar los modelos bayesianos (por ejemplo, la regresión bayesiana) en la vida real, o este problema carece fundamentalmente de suficientes datos con los que trabajar?
Supongamos que se consultan varios estudios en los que se registran las alturas y se evalúa manualmente la credibilidad de estos estudios (asignando "pesos bajos" a los estudios considerados no creíbles, por ejemplo altura_ajustada = puntuación_de_credibilidad * altura_media_registrada_en_el_estudio ):
head(my_data)
average_recorded_height_in_study credibility_score study_number adjusted_height
1 13.74253 1.0000000 1 13.742525
2 20.08053 0.3222523 2 6.470999
3 13.25037 0.5132335 3 6.800532
4 15.74946 0.2625349 4 4.134783
5 11.68657 0.5966327 5 6.972592
6 17.27276 1.0000000 6 17.272759
Hay muchas herramientas/paquetes (por ejemplo, utilizando el lenguaje de programación R) que pueden intentar explorar esta "información previa" y ajustar la distribución
library(fitdistrplus)
library(patchwork)
library(ggplot2)
fg <- fitdist(my_data$adjusted_height, "gamma")
fln <- fitdist(my_data$adjusted_height, "lnorm")
fg <- fitdist(my_data$adjusted_height, "gamma")
fw <- fitdist(my_data$adjusted_height, "weibull")
par(mfrow = c(2, 2))
plot.legend <- c("Weibull", "lognormal", "gamma")
a <- denscomp(list(fw, fln, fg), legendtext = plot.legend, plotstyle = "ggplot")
b <- qqcomp(list(fw, fln, fg), legendtext = plot.legend, plotstyle = "ggplot")
c <- cdfcomp(list(fw, fln, fg), legendtext = plot.legend, plotstyle = "ggplot")
d <- ppcomp(list(fw, fln, fg), legendtext = plot.legend, plotstyle = "ggplot")
a+b+c+d
El análisis anterior podría repetirse para las demás variables del estudio. En este caso, podríamos ver qué distribución se ajusta mejor a los datos (por ejemplo, utilizando la - verosimilitud), y registrar las estimaciones de los parámetros de esta distribución.
¿Es ésta la idea correcta de cómo se incorporan los priores a los modelos bayesianos en el mundo real? En este ejemplo que he creado, ¿se puede analizar la información de estudios anteriores y utilizarla para crear priores para una Regresión Lineal Bayesiana?
Gracias
Nota: Supongamos que las 15 jirafas que ha medido resultan ser jirafas enfermas y que sus medidas de altura/peso no son representativas de la población general de jirafas, pero quizás la información codificada en los datos a priori representa una amplia gama de jirafas. Por lo tanto, la combinación de sus mediciones con la información a priori podría dar lugar a un modelo más realista que podría generalizar a una población más grande de jirafas (este hecho es desconocido para usted en este momento).