22 votos

¿Cómo gestiona la Estadística Bayesiana la ausencia de priores?

Esta pregunta se inspira en dos interacciones recientes que he tenido, una aquí en CV y el otro en economics.se.

Allí, había publicado una respuesta a la conocida "Paradoja del Sobre" (ojo, no tan el "respuesta correcta", sino como la respuesta que se deriva de suposiciones específicas sobre la estructura de la situación). Al cabo de un tiempo, un usuario publicó un comentario crítico y yo entablé una conversación tratando de entender su punto de vista. Era obvio que pensaba de forma bayesiana, y no paraba de hablar de priores, y entonces caí en la cuenta y me dije: "Un momento, ¿quién ha dicho nada de ningún anterior? De la forma en que he formulado el problema, aquí no hay antecedentes, simplemente no entran en escena, ni falta que hace".

Hace poco, vi esta respuesta aquí en CV, sobre el significado de la Independencia Estadística. Comenté al autor que su frase

"... si los acontecimientos son estadísticamente independientes entonces (por definición) no podemos no podemos aprender sobre uno observando el otro".

estaba descaradamente equivocado. En un intercambio de comentarios, volvió una y otra vez a la cuestión de (sus palabras)

"¿Aprender" no significa cambiar nuestras creencias sobre una cosa basándonos en la observación de otra? observación de otra? Si es así, ¿no excluye la independencia (por definición) excluye esto?

Una vez más, era obvio que pensaba a la manera bayesiana, y que consideraba es evidente que partimos de unas creencias (es decir, de un previo) y luego la cuestión es cómo podemos cambiarlos/actualizarlos. Pero ¿cómo se crea la primera creencia?

Puesto que la ciencia debe ajustarse a la realidad, observo que existen situaciones en las que los seres humanos implicados no tienen antecedentes (yo, por ejemplo, me encuentro en situaciones sin ningún antecedente todo el tiempo -y, por favor, no argumenten que sí tengo antecedentes pero no me doy cuenta, ahorrémonos aquí falsos psicoanálisis).

Como por casualidad he oído el término "priors no informativos", divido mi pregunta en dos partes, y estoy bastante seguro de que los usuarios de aquí que son conocedores de la teoría bayesiana, saben exactamente lo que voy a preguntar:

P1: ¿Es la ausencia de un previo equivalente (en el sentido teórico estricto) a tener un previo no informativo?

Si la respuesta a la P1 es "Sí" (con algún detalle, por favor), entonces significa que el enfoque bayesiano es aplicable universalmente y desde el principio Dado que en cualquier caso el ser humano implicado declara "no tengo a priori", podemos añadir en su lugar una a priori que no sea informativa para el caso en cuestión.

Pero si la respuesta a Q1 es "No", entonces Q2 aparece:

P2 : Si la respuesta a P1 es "No", ¿significa esto que, en los casos en los que no hay priores, el enfoque bayesiano no es aplicable desde el principio, y tenemos que formar primero una prior por alguna vía no bayesiana, para poder aplicar posteriormente el enfoque bayesiano?

12voto

Shift Puntos 310

P1: ¿Es la ausencia de un previo equivalente (en el sentido teórico estricto) a tener un previo no informativo?

Non.

En primer lugar, no existe una definición matemática de "prior no informativo". Esta palabra sólo se utiliza de manera informal para describir algunas priorizaciones.

Por ejemplo, la prior de Jeffrey se suele calificar de "poco informativa". Esta a priori generaliza la a priori uniforme para problemas invariantes de traslación. La prioridad de Jeffrey se adapta de algún modo a la geometría riemanniana (teórica de la información) del modelo, por lo que es independiente de la parametrización y sólo depende de la geometría del colector (en el espacio de distribuciones) que es el modelo. Podría percibirse como canónica, pero es sólo una elección. Es sólo la previa uniforme según la estructura riemanniana. No es absurdo definir "no informativa = uniforme" como simplificación de la cuestión. Esto se aplica a muchos casos y ayuda a formular una pregunta clara y sencilla.

Hacer inferencia bayesiana sin un prior es como "¿cómo puedo adivinar ? $E(X)$ sin ninguna suposición sobre la distribución de $X$ sólo sabiendo que $X$ tiene valores en $[0;1]$ ?" Es evidente que esta pregunta no tiene sentido. Si contestas 0,5, probablemente tengas una distribución en mente.

Los enfoques bayesiano y frecuentista simplemente responden a preguntas diferentes. Por ejemplo, sobre los estimadores, que es quizá la más sencilla:

  • Frecuentista (por ejemplo): "¿Cómo puedo estimar $\theta$ tal que mi respuesta tenga el menor error (sólo promediado sobre $x$ ) en el peor de los casos (más de $\theta$ )?". Esto conduce a estimadores minimax.

  • Bayesiano: "¿Cómo puedo estimar $\theta$ tal que mi respuesta tenga el menor error en promedio (sobre $\theta$ ) ?". Esto conduce a los estimadores de Bayes. Pero la pregunta es incompleta y debe especificar "¿promedio en qué sentido?". Por lo tanto, la pregunta sólo es completa cuando contiene una prioridad.

De alguna manera, el frecuentista apunta al control del peor de los casos y no necesita un prior. El bayesiano tiene como objetivo el control medio y necesita una priorización para decir "¿medio en qué sentido?".

P2 : Si la respuesta a P1 es "No", ¿significa esto que, en los casos en los que no hay priores, el enfoque bayesiano no es aplicable desde el principio, y tenemos que formar primero una prior por alguna vía no bayesiana, para poder aplicar posteriormente el enfoque bayesiano?

Sí.

Pero cuidado con la construcción canónica previa. Puede parecer matemáticamente atractiva, pero no es automáticamente realista desde el punto de vista bayesiano. Es posible que una priorización matemáticamente agradable corresponda en realidad a un sistema de creencias tonto. Por ejemplo, si se estudia $X\sim N(\mu,1)$ , Jeffrey's prior on $\mu$ es uniforme y si se trata del tamaño medio de las personas, puede que no sea un sistema muy realista. Sin embargo, con pocas observaciones, el problema desaparece bastante rápido. La elección no es muy importante.

En mi opinión, los verdaderos problemas con la especificación previa se dan en problemas más complicados. Lo importante aquí es entender lo que dice una determinada especificación previa.

5voto

Dipstick Puntos 4869

En primer lugar, se suele utilizar el enfoque bayesiano porque quieres incluir conocimientos previos en tu modelo para enriquecerlo. Si no tienes ningún conocimiento previo, entonces te quedas con los llamados priors "no informativos" o informativos semanales. Tenga en cuenta que la prioridad uniforme no es "desinformativa" por definición, ya que el supuesto sobre la uniformidad es una suposición. Hay no existe un previo verdaderamente desinformativo . Hay casos en los que "podría ser cualquier cosa" es una suposición previa "no informativa" razonable, pero también hay casos en los que afirmar que "todos los valores son igual de probables" es una suposición muy fuerte y poco razonable. Por ejemplo, si supusieras que mi altura puede ser cualquier cosa entre 0 centímetros y 3 metros, siendo todos los valores igual de probables a priori, no sería una suposición razonable y daría demasiado peso a los valores extremos, por lo que posiblemente distorsionaría tu posterior.

Por otro lado, los bayesianos argumentarían que en realidad no hay situaciones en las que no se tengan conocimientos o creencias previas de ningún tipo. Siempre se puede suponer algo y como ser humano, lo haces todo el tiempo (los psicólogos y los economistas conductuales hicieron toneladas de investigaciones sobre este tema). Todo el alboroto bayesiano con las preconcepciones consiste en cuantificar esas preconcepciones y declararlas explícitamente en su modelo, ya que la inferencia bayesiana trata de actualizar sus creencias .

Para los problemas abstractos es fácil inventar argumentos "sin suposiciones previas", o priors uniformes, pero para los problemas de la vida real tendrías conocimientos previos. Si tuviera que hacer una apuesta sobre la cantidad de dinero que hay en un sobre, sabría que la cantidad tiene que ser no negativa y finita. También podría hacer una conjetura sobre el límite superior de la posible cantidad de dinero dado su conocimiento sobre las reglas del concurso, los fondos disponibles para su adversario, el conocimiento sobre el tamaño físico del sobre y la cantidad de dinero que podría caber físicamente en él, etc. También puede hacer algunas conjeturas sobre la cantidad de dinero que su adversario podría estar dispuesto a meter en el sobre y posiblemente perder. Hay muchas cosas que podrías saber como base para tu previa.

4voto

kjetil b halvorsen Puntos 7012

Esta es sólo una breve observación que se suma a las otras excelentes respuestas. A menudo, o al menos a veces, es un tanto arbitrario (o convencional) qué parte de la información que entra en un análisis estadístico se llama datos y qué parte se llama anterior . O, de forma más general, podemos decir que la información en un análisis estadístico procede de tres fuentes: la modelo El datos y el anterior . En algunos casos, como los modelos lineales o los glm, la separación es bastante clara, al menos convencionalmente.

Reutilizaré un ejemplo de Estimación de máxima verosimilitud (MLE) en términos sencillos para ilustrar mi punto. Supongamos que un paciente entra en la consulta de un médico con problemas médicos difíciles de diagnosticar. Este médico no ha visto algo similar antes. Entonces, hablando con el paciente, aparece una nueva información: este paciente ha visitado África tropical hace muy poco. Entonces al médico le parece que podría tratarse de malaria o de alguna otra enfermedad tropical. Pero nótese, que esta información es claramente para nosotros datos Pero, al menos en muchos modelos estadísticos que se podrían utilizar, entrará en el análisis en forma de distribución a priori, una distribución a priori que da mayor probabilidad a algunas enfermedades tropicales. Pero podríamos, tal vez, hacer algún modelo (más grande), más completo, donde esta información entre como datos. Así que, al menos en parte, la distinción datos / anterior es convencional.

Estamos acostumbrados y aceptamos esta convención por nuestro énfasis en algunas clases de modelos convencionales. Pero, en un contexto más amplio, fuera del mundo de los modelos estadísticos estilizados, la situación es menos clara.

3voto

patfla Puntos 1

Pregunta 1 Creo que la respuesta es probablemente no. La razón es que en realidad no tenemos una definición de "desinformativo", excepto para medir de algún modo lo lejos que está la respuesta final de algún modelo/verosimilitud arbitrariamente informativo. Muchos a priori no informativos se validan con ejemplos "intuitivos" en los que ya tenemos en mente "el modelo/verosimilitud" y "la respuesta". Entonces pedimos a la teoría a priori no informativa que nos dé la respuesta que queremos.

Mi problema con esto es que me cuesta creer que alguien pueda tener un modelo o estructura de modelo realmente bueno y bien informado para su población, y simultáneamente no tener "ninguna información" sobre los valores probables e improbables de los parámetros para ese modelo. Por ejemplo, utilizando la regresión logística, véase "A WEAKLY INFORMATIVE DEFAULT PRIOR DISTRIBUTION. PARA MODELOS LOGÍSTICOS Y OTROS MODELOS DE REGRESIÓN"

Creo que la a priori uniforme discreta es la única que podríamos decir razonablemente que es la a priori "primero-primero". Pero te encuentras con problemas al utilizarla, pensando que no tienes "información", pero de repente reaccionas ante respuestas "poco intuitivas" (pista: si no te gusta una respuesta bayesiana, puede que hayas omitido información en la prior o en la probabilidad). Otro problema con el que nos encontramos es la discretización correcta del problema. E incluso pensando en esto, necesita saber el número de valores discretos para aplicar la prioridad uniforme discreta.

Otra propiedad a tener en cuenta para su prior es el "comportamiento de la cola" en relación con la probabilidad que está utilizando.

a la pregunta 2

Conceptualmente, no veo nada malo en especificar una distribución sin el uso de una probabilidad a priori. Usted puede comenzar un problema diciendo "mi pdf es ... y quiero calcular ... wrt este pdf". Entonces usted está creando una restricción para el prior, predictivo prior, y la verosimilitud. El método bayesiano es para cuando usted tiene un prior y una probabilidad, y desea combinarlos en una distribución posterior.

Probablemente sea cuestión de tener claras cuáles son tus probabilidades. Entonces el argumento se desplaza a "¿representa este pdf/pmf lo que yo digo que representa?". - que es el espacio en el que quieres estar creo yo. Según tu ejemplo, estás diciendo que la distribución única refleja toda la información disponible: no hay "previa" porque ya está contenida (implícitamente) en la distribución que estás utilizando.

También se puede aplicar bayes a la inversa: ¿qué "prior", "likelihood" y "data" me dan el prior real que estoy considerando? Esta es una forma de ver que un $U (0,1) $ prior for a $Bin(n,p) $ probabilidad "parece" que corresponde a una "posterior" para un $Beta (0,0) $ "anterior" con $2$ observaciones - $1$ de cada categoría.

sobre el llamado comentario descaradamente erróneo

Para ser sincero, me interesaría mucho ver cómo se puede utilizar cualquier número de observación para predecir una observación "estadísticamente independiente". Como ejemplo, si te digo que voy a generar 100 variables normales estándar. Te doy 99, y te pido que me des tu mejor predicción para la 100. Te digo que no puedes hacer una predicción para la 100 mejor que 0. Pero es la misma que predecirías para la 100 si no te diera datos. Por lo tanto, no se aprende nada de los 99 puntos de datos.

Sin embargo, si te digo que era "alguna distribución normal", puedes utilizar los 99 puntos de datos para estimar los parámetros. Entonces los datos ya no son "estadísticamente independientes", porque aprendemos más sobre la estructura común a medida que observamos más datos. Su mejor predicción ahora utiliza los 99 puntos de datos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X