24 votos

¿Creemos en la existencia de una verdadera distribución previa en la Estadística Bayesiana?

Sea \(X\) una variable aleatoria con valores en \( \mathcal{X} \). Supongamos que hemos observado \(X = x\). Utilizamos un modelo paramétrico con \( \theta \in \Theta \) como parámetro.

En el enfoque frecuentista, creemos que existe un verdadero \( \theta \in \Theta \) que decide la distribución de \(X\). El procedimiento de inferencia consiste en utilizar \(x\) para estimar este verdadero \( \theta \).

En el enfoque bayesiano, imponemos una medida de probabilidad a priori \( \Pi \) en \( \Theta \). El procedimiento práctico de inferencia implica encontrar un modelo estadístico (una colección de medidas de probabilidad \( \mathcal{P} \) en las que \(P_{X \mid \theta = \theta} \) toma valor) junto con la a priori \( \Pi \) que refleje las creencias del cliente, actualizar \( \Pi \) utilizando \(x\), y realizar conclusiones de acuerdo con la distribución posterior. Literalmente no hay otra forma de hacer el trabajo.

Mi pregunta es, al adoptar el marco bayesiano, después de elegir el modelo estadístico \( \mathcal{P} \), ¿creemos en la existencia de una verdadera distribución de \( \theta \), \(P_{\theta} \) (de modo que veamos el posterior como una estimación de este verdadero \(P_{\theta} \))? Creo que, incluso si creemos en ello, probablemente no afectará cómo llevamos a cabo nuestro trabajo en la práctica. Pero parece que, una vez que creemos en ello, el enfoque bayesiano incluye completamente el enfoque frecuentista (permite que \(P_{\theta}\) se concentre en un único valor).

31voto

Aaron Puntos 36

No confundir el conocimiento a priori del valor del parámetro verdadero con tener un verdadero prior sobre el espacio de parámetros

La respuesta a esta pregunta depende de la interpretación filosófica subyacente de la probabilidad que uno adopta dentro del paradigma bayesiano. La interpretación filosófica más popular (y en mi opinión coherente) es la "interpretación epistemológica" de la probabilidad.$^\dagger$ Este enfoque filosófico considera que "la probabilidad" es una herramienta utilizada para cuantificar nuestra incertidumbre sobre cosas desconocidas, sujeta a un conjunto de requisitos de coherencia (ver Bernardo and Smith (1994), Cap. 2-3 para una discusión).

En términos generales, una medida de probabilidad surge como una herramienta efectiva para la cuantificación de la incertidumbre si deseamos medir la incertidumbre utilizando números reales (es decir, utilizando un continuo como medida de certeza) y deseamos evitar ciertos tipos de "incoherencia". Este enfoque fue famosamente propuesto en Ramsay (1931) y ha sido discutido detenidamente por autores posteriores (ver por ejemplo, Kyburg 1978, Kennedy and Chihara 1979, Skyrms 1987, Christensen 1991, Skyrms 1992, Zynda 1996, Welch 2014, Roche and Schippers 2014). Estos argumentos típicamente requieren que el usuario cuantifique su incertidumbre de una manera que evite los resultados de "apuestas holandesas" sobre posibles apuestas en estados, lo cual se argumenta como un tipo de incoherencia de creencia. Dejando de lado los detalles del argumento de coherencia, lo más importante aquí es que la probabilidad se ve como una herramienta creada por los humanos para analizar el mundo, no como una parte inherente del mundo mismo. En particular, la interpretación epistémica no asume que haya algún análogo metafísico de la probabilidad en la naturaleza (por ejemplo, probabilidades aleatorias de eventos), por lo que es compatible tanto con vistas determinísticas como no determinísticas de la naturaleza.

Si se adopta la interpretación epistémica de la probabilidad como la base para la estadística bayesiana, entonces un prior "verdadero" es simplemente aquel que representa adecuadamente tu enfoque epistémico sobre la incertidumbre acerca de una cantidad en cuestión dada la información con la que comienzas (es decir, antes de ver los datos que son objeto del análisis). El prior es verdadero si representa adecuadamente tus creencias (sujeto a los requisitos de coherencia estipulados) antes de ver los datos y es falso si no lo hace. De la misma manera, si verdaderamente crees que la función de verosimilitud en tu análisis captura la naturaleza de los datos observables, entonces el posterior formado al actualizar tu creencia verdadera prior será un posterior verdadero. El posterior es verdadero si representa adecuadamente tus creencias (sujeto a los requisitos de coherencia estipulados) después de ver los datos y es falso si no lo hace. Dentro del paradigma epistemológico, uno debe decidir si el verdadero prior es inducido por creencias subjetivas genuinas (por ejemplo, a través de puntos de vista subjetivos a priori de las probabilidades de apuestas de equilibrio), o por algún enfoque objetivo (por ejemplo, priors de referencia), etc., para decidir qué constituye una representación "verdadera" de tus creencias; la consideración de la literatura relevante y los métodos deberían determinar tus creencias sobre cómo ver la incertidumbre a priori, por lo que deberás decidir qué enfoque crees que encapsula adecuadamente tu prior "verdadero".

Ahora bien, aunque el prior/posterior "verdadero" puede ser determinado por el enfoque epistémico, en la mayoría de las circunstancias un bayesiano seguirá creyendo que hay algún comportamiento verdadero a largo plazo que establece el valor verdadero del parámetro en un modelo (ver esta pregunta relacionada). Esta creencia surge típicamente de una creencia subyacente en una secuencia infinita de observaciones potenciales del experimento en estudio, y los parámetros verdaderos generalmente corresponden a varias funciones límite de la secuencia estipulada. Por lo tanto, típicamente habrá un parámetro verdadero (pero desconocido), un prior verdadero y un posterior verdadero, y todos estos serán distintos.

Te metes en problemas cuando luego dices que el enfoque bayesiano incluye completamente el enfoque frecuentista simplemente porque podrías tomar la distribución prior como una distribución de masa puntual en un punto conocido. En primer lugar, eso aún no haría que el análisis bayesiano fuera equivalente al análisis frecuentista (hay varias diferencias entre estos enfoques), pero más importante aún, ¿es esa realmente tu creencia prior verdadera? Si estás seguro a priori de que el parámetro es igual al valor estipulado, entonces ese es verdaderamente tu prior verdadero (y podrías meterte en esta situación), pero si no estás seguro de ese valor del parámetro, entonces no es un prior verdadero en el sentido epistemológico.


$^\dagger$ A menudo se llama a esto la "interpretación subjetiva", lo cual es un mal nombre para ello, ya que no requiere necesariamente subjetividad del prior.

15voto

Lewian Puntos 296

Comentaré tanto sobre la idea de un "modelo paramétrico/parámetro verdadero" como sobre un "prior verdadero", ya que la pregunta es algo ambigua sobre cuál de ellos es de interés aquí.

Primero, en lo que respecta al frecuentismo, es cierto que analizar datos basándose en modelado frecuentista paramétrico asumirá que hay un modelo verdadero y un valor de parámetro, sobre los cuales la inferencia frecuentista hace afirmaciones.

Sin embargo, esto no significa que cualquiera que utilice tales métodos deba creer que estos modelos y cualquier valor de parámetro son realmente verdaderos en la realidad. Utilizamos métodos que están justificados por y derivados de modelos formales artificiales, los cuales siempre son una idealización de la realidad y, por lo tanto, no deberían ser llamados "verdaderos" en realidad. La ficción de un parámetro verdadero nos permite analizar matemáticamente las características de nuestra inferencia, y esto es prácticamente la mejor justificación que podemos obtener para tales métodos, por lo cual usamos dichos modelos, pero esto no implica "creencia". Creo que cualquier interpretación adecuada y discusión de resultados de (no solo) inferencia frecuentista, necesitan reconocer el hecho de que los modelos están justificados dentro del "mundo matemático", que es diferente del mundo real.

Gran parte de lo que escribo aquí (tanto arriba como abajo) ha sido elaborado en Hennig, C. (2023). Probability Models in Statistical Data Analysis: Uses, Interpretations, Frequentism-as-Model. En: Sriraman, B. (eds) Handbook of the History and Philosophy of Mathematical Practice. Springer, Cham. https://doi.org/10.1007/978-3-030-19071-2_105-1; disponible en https://arxiv.org/abs/2007.05748

En cuanto al enfoque bayesiano, @Ben ha dado una buena respuesta. Sin embargo, es importante tener en cuenta que hay más de una interpretación de las probabilidades bayesianas. De Finetti, por ejemplo, es muy explícito en no creer en modelos y parámetros verdaderos. Según él, el modelo paramétrico es solo un dispositivo para derivar distribuciones predictivas posteriores significativas. En el sentido de De Finetti, se puede interpretar el posterior con respecto a las observaciones futuras esperadas, pero no con respecto a un valor de parámetro verdadero, ya que esto no existe. Un "prior verdadero" en este sentido sería un prior que exprese correctamente tu incertidumbre personal (o, en "Bayes objetiva", la incertidumbre basada en conocimientos "objetivos" seguros).

Se ha argumentado, sin embargo (por ejemplo, en "Philosophical Theories of Probability" de D. Gillies; argumentos similares en "Ten Great Ideas about Chance" de Diaconis & Skyrms) que tener tu creencia modelada por un prior basado en un supuesto de intercambiabilidad y un modelo paramétrico de muestreo implica la creencia de que si se pudiera recolectar un número infinito de observaciones, estas se comportarían de hecho como el modelo de muestreo con un cierto valor de parámetro verdadero, y en este sentido se podría afirmar correctamente que si tu creencia está modelada de esta manera estándar bayesiana, implícitamente también crees en un parámetro verdadero en el sentido definido anteriormente. Diaconis & Skyrms (y algunos otros bayesianos) sostienen de hecho que de esta manera el enfoque bayesiano incluye realmente el frecuentismo, pero como menciona @Ben correctamente, hay otras diferencias entre estas corrientes. En particular, la inferencia frecuentista trata sobre las características de rendimiento de los métodos dado el parámetro verdadero, mientras que la inferencia bayesiana trata sobre hacer afirmaciones de probabilidad sobre ese parámetro y sobre las observaciones futuras (en mi artículo citado anteriormente llamo a esto "lógica de compatibilidad" - la inferencia frecuentista trata sobre si los modelos son compatibles con los datos, no sobre si son verdaderos - vs. "lógica de probabilidad inversa").

Además, creo que la probabilidad bayesiana epistémica/subjectiva es tan solo una idealización como lo es la probabilidad frecuentista. En particular, nadie normalmente creería realmente en la intercambiabilidad, ya que esto no solo implica que el orden de las observaciones es irrelevante, sino también que nunca se puede aprender, teniendo en cuenta el orden de las observaciones, que de hecho el orden es relevante, diferente de lo que se asumió inicialmente (lo que significa que "creer" en la irrelevancia del orden no es suficiente, tienes que estar 100% seguro al respecto). Por lo tanto, el argumento anterior realmente no se sostiene, ya que la intercambiabilidad se asume por conveniencia y por tener una manera bien definida de cómo aprender del pasado para el futuro, pero no porque alguien crea que es realmente verdadera. Además, un "prior verdadero", si incluso existe, puede no estar de acuerdo con el usado para el análisis estadístico (por ejemplo, no asumiendo la intercambiabilidad).

Otro aspecto es que las probabilidades utilizadas en la inferencia bayesiana también pueden entenderse de una manera empírica, frecuentista. En este caso, el modelo de muestreo se interpreta como frecuentista (como se dijo anteriormente, esto no necesariamente significa que tengamos que creer en él, sin embargo analizamos la situación como si fuera verdadero), y también el prior podría referirse a una distribución frecuentista sobre parámetros verdaderos en estudios similares. Esto es defendido en varios lugares por Andrew Gelman, también ver mi artículo anterior. Un problema clave con esto es que para definir cuál sería el "prior verdadero", se requiere una definición precisa de cuál es el "conjunto de referencia" de estudios que califican para ser incluidos en la población en la cual se basa el prior. Esto casi nunca se da y probablemente sea muy difícil de especificar.

Un aspecto final es que también se puede argumentar que, aunque el modelo paramétrico es una idealización y no literalmente "verdadero", el parámetro se refiere a algo que realmente existe (como la cantidad de cierta contaminación en un río, medida con incertidumbre). De esta manera se podría justificar la existencia de un "parámetro verdadero" sin considerar al modelo como "verdadero" (y un prior para formalizar la incertidumbre sobre ese parámetro verdadero), aunque por supuesto esto requiere conectar el parámetro "verdadero" con el modelo dentro del cual está definido matemáticamente, lo cual puede ser "filosóficamente difícil" sin asumir que el modelo también es verdadero.

5voto

user164061 Puntos 281

¿Creemos en la existencia de una verdadera distribución de $\theta$, $P_{\theta}$ (de modo que vemos el posterior como una estimación de este verdadero $P_{\theta}$)?

  1. Una distribución posterior no tiene como objetivo estimar un 'verdadero anterior', sino más bien un 'verdadero parámetro'.

    Por ejemplo, el porcentaje de grasa de una persona es un valor específico fijo (si descartamos pequeñas variaciones temporales como la respiración, el sudor, etc.), pero sigue una cierta distribución en una población.

    • Cuando 'seleccionamos al azar' a una persona de una población, entonces podríamos considerar el porcentaje de grasa de esa persona como si fuera extraído de una distribución de probabilidad que es la distribución de porcentajes de grasa en la población.
    • Pero una vez seleccionado, el valor se considera fijo.

    Después de realizar algunas mediciones como el grosor del pliegue cutáneo, o la conductancia eléctrica del cuerpo, luego tratamos de estimar el porcentaje de grasa de la persona y no la distribución del porcentaje de grasa de la población de la que proviene la persona.

  2. La idea de que el parámetro que estamos estimando proviene de alguna distribución, como con la distribución de grasa entre la población, puede existir, pero este no siempre es el caso. Por ejemplo, podríamos estimar una constante física en su lugar (aunque posiblemente aún se pueda considerar técnicamente como una distribución, específicamente una distribución degenerada).

    El anterior no es lo mismo que esta distribución. O esta distribución no debe ser llamada un anterior.

    Usar un anterior puede hacerse, por ejemplo, para mejorar las estimaciones, como en LASSO o regresión ridge. Es un 'concepto' diferente a algo que es una estimación o conjetura de la verdadera distribución de la población (que en el caso de constantes ni siquiera existe).

4voto

damien Puntos 1378

La pregunta es interesante, aunque un tanto mal planteada. Los bayesianos suelen sentirse cómodos con la idea de que algún punto $\theta_0$ en el espacio de parámetros $\Theta$ sea el parámetro verdadero de un modelo paramétrico dado $p_{X|\theta}$.

Tu probabilidad previa $\pi(\theta)$ sobre $\Theta$ describe entonces tu confianza con respecto a la ubicación de $\theta_0$, y con cada nueva pieza de información $x_{1}, x_{2}, \ldots, x_{T}$ con la que actualices tu previa, $\pi(\theta|x_{1}, x_{2}, \ldots, x_{T}) se vuelve más estrecha y estrecha hasta que se concentra en $\theta_{0}$.

Pero la concentración de $\pi(\theta|\cdot)$ se encuentra al final de este proceso, no al principio. En otras palabras, deberíamos estar hablando de que el posterior se concentra en la "verdad", no la prior (para un artículo seminal que discute la concentración posterior, ver Ghosal et al.).

En principio, podrías tener una prior puntual $\pi(\theta) = \delta(\theta-\theta_0)$ (donde $\delta$ es una Gaussiana de varianza cero). Pero en ese caso, cualquier actualización bayesiana adicional sería irrelevante: ya conoces el $\theta$ "verdadero" con absoluta certeza y cualquier $\theta \neq \theta_{0}$ tendría masa de probabilidad cero, lo cual ninguna cantidad de datos podrá deshacer.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X