32 votos

Historia de la teoría previa no informativa

Estoy escribiendo un breve ensayo teórico para un curso de Estadística Bayesiana (en un M.Sc. de Economía) sobre priores no informativos y estoy tratando de entender cuáles son los pasos en el desarrollo de esta teoría.

Por ahora, mi línea de tiempo está hecha de tres pasos principales: Principio de indiferencia de Laplace (1812), Prioridades no invariantes (Jeffreys (1946)), Prioridades de referencia de Bernardo (1979).

A partir de mi revisión de la literatura, he entendido que el principio de indiferencia (Laplace) fue la primera herramienta utilizada para representar la falta de información previa, pero la falta del requisito de invariancia ha llevado a su abandono hasta los años 40, cuando Jeffreys introdujo su método, que tiene la propiedad deseada de invariancia. El surgimiento de las paradojas de la marginación debido al uso descuidado de la información previa inadecuada en los años 70 empujó a Bernardo a elaborar su teoría de la información previa de referencia para tratar esta cuestión.

Leyendo la literatura, cada autor cita diferentes contribuciones: La máxima entropía de Jaynes, la probabilidad traducida en datos de Box y Tiao, Zellner, ...

En su opinión, ¿cuáles son los pasos cruciales que me faltan?

EDITAR : Añado mis referencias (principales), por si alguien las necesita:

1) La selección de la prioridad mediante reglas formales, Kass, Wasserman

2) Un catálogo de priores no informativos, Yang, Berger

3) Bayesianos no informativos Interpretación de priores y problemas de construcción y aplicaciones

EDITAR 2 : Perdón por el retraso de 2 años pero aquí puedes encontrar mi ensayo aquí

21voto

Dipstick Puntos 4869

Lo que parece que te falta es la historia temprana. Puede consultar el documento de Fienberg (2006) ¿Cuándo se convirtió la inferencia bayesiana en "bayesiana"? . En primer lugar, observa que Thomas Bayes fue el primero que sugirió el uso de una prioridad uniforme:

En el lenguaje estadístico actual, el documento de Bayes introduce un distribución a priori sobre el parámetro binomial, $\theta$ , razonando por por analogía con una "mesa de billar" y recurriendo a la forma de la distribución marginal de la variable aleatoria binomial, y no en el principio de la "razón insuficiente", como han afirmado muchos otros.

Pierre Simon Laplace fue el siguiente en discutirlo:

Laplace también articuló, más claramente que Bayes, su argumento para la elección de una distribución a priori uniforme, argumentando que la distribución posterior del parámetro $\theta$ debe ser proporcional a lo que llamamos ahora la probabilidad de los datos, es decir

$$ f(\theta\mid x_1,x_2,\dots,x_n) \propto f(x_1,x_2,\dots,x_n\mid\theta) $$

Ahora entendemos que esto implica que la distribución a priori para $\theta$ es uniforme, aunque en general, por supuesto, el previo puede no existir.

Además, Carl Friedrich Gauss también se refirió al uso de un previo no informativo, como señalan David y Edwards (2001) en su libro Lecturas comentadas de la historia de la estadística :

Gauss utiliza un argumento ad hoc de tipo bayesiano para demostrar que la posterior densidad de $h$ es proporcional a la probabilidad (en moderno terminología moderna):

$$ f(h|x) \propto f(x|h) $$

donde ha asumido $h$ para que se distribuya uniformemente sobre $[0, \infty)$ . Gauss no menciona ni a Bayes ni a Laplace, aunque este último este último había popularizado este enfoque desde Laplace (1774).

y como observa Fienberg (2006), la "probabilidad inversa" (y lo que sigue, utilizando priores uniformes) era popular a finales del siglo XIX

[...] Por lo tanto, en retrospectiva, no debería ser sorprendente ver la inversión probabilidad inversa como el método elegido por los grandes estadísticos ingleses del cambio de siglo, como Edgeworth y Pearson. En ejemplo, Edgeworth (49) dio una de las primeras derivaciones de lo que lo que hoy conocemos como la $t$ -la distribución posterior de la media $\mu$ de una distribución normal dada a priori uniforme en el caso de las distribuciones $\mu$ y $h =\sigma^{-1}$ [...]

La historia temprana del enfoque bayesiano también es revisada por Stigler (1986) en su libro La historia de la estadística: La medición de la incertidumbre antes de 1900 .

En su breve reseña tampoco parece mencionar a Ronald Aylmer Fisher (de nuevo citado tras Fienberg, 2006):

Fisher se alejó de los métodos inversos y se acercó a su propia enfoque de la inferencia que denominó "probabilidad", un concepto que, según él, era era distinto de la probabilidad. Pero la progresión de Fisher en este sentido fue lenta. Stigler (164) ha señalado que, en un manuscrito inédito manuscrito que data de 1916, Fisher no distinguía entre probabilidad y probabilidad inversa con un prior plano, aunque cuando cuando más tarde hizo la distinción, afirmó haberla entendido en ese momento. momento.

Jaynes (1986) proporcionó su propio documento de revisión breve Métodos bayesianos: Antecedentes generales. Un tutorial introductorio que podría comprobar, pero no se centra en los antecedentes no informativos. Además, como señala AdamO definitivamente debería leer La historia épica de la máxima probabilidad de Stigler (2007).

También cabe mencionar que hay no hay tal cosa como un "previo no informativo" Así que muchos autores prefieren hablar de "vagos antecedentes" o "Previsiones informativas semanales" .

Kass y Wasserman (1996) ofrecen una revisión teórica en La selección de distribuciones a priori mediante reglas formales que profundizan en la elección de las variables a priori, con una amplia discusión sobre el uso de las variables a priori no informativas.

11voto

VinceM Puntos 26

Algunos comentarios sobre los defectos de las priores no informativas (priores no informativas) son probablemente una buena idea ya que la investigación de tales defectos ayudó al desarrollo del concepto de priores no informativas en la historia.

Tal vez quiera añadir algunos comentarios sobre los inconvenientes/defectos de la adopción de priores no informativos. Entre las muchas críticas, señalo dos.

(1) Generalmente la adopción de priores no informativos tiene problemas de consistencia especialmente cuando la distribución del modelo tiene un comportamiento multimodal.

Este problema no es exclusivo de los priores no informativos, sino que es compartido por muchos otros procedimientos bayesianos, como se señala en el siguiente documento junto con sus discusiones.

Diaconis, Persi, y David Freedman. "Sobre la consistencia de las estimaciones de Bayes". The Annals of Statistics (1986): 1-26.

Hoy en día, el previo no informativo ha dejado de ser un foco de investigación. Parece que hay más interés en opciones más flexibles de priorización en entornos no paramétricos. Algunos ejemplos son la prioridad del proceso gaussiano en el procedimiento Bayes no paramétrico o un modelo flexible como una mezcla de prioridades Dirichlet, como en

Antoniak, Charles E. "Mezclas de procesos Dirichlet con aplicaciones a problemas bayesianos no paramétricos". Los anales de la estadística (1974): 1152-1174.

Pero, una vez más, este tipo de precedente tiene sus propios problemas de consistencia.

(2) La mayoría de los llamados "priors no informativos" no están bien definidos.

Este es probablemente el problema más evidente asociado a los priores no informativos durante su desarrollo.

Un ejemplo es que la definición de límite de la prioridad no informativa como límite de una secuencia de prioridades adecuadas conducirá a una paradoja de marginación. Como has mencionado, la prioridad de referencia de Bernardo también tiene el problema de que Berger nunca demostró que su definición formal es independiente de su construcción/participación. Véase la discusión en

Berger, James O., José M. Bernardo y Dongchu Sun. "La definición formal de los priores de referencia". The Annals of Statistics (2009): 905-938.

Una de las mejores definiciones sobre la prioridad de Jeffreys que está bien definida es que se elija una prioridad tal que sea invariante bajo cierta traslación paralela sobre la variedad riemanniana equipada con la métrica de información de Fisher, pero incluso eso no resuelve el primer problema.

También puede leer mi explicación sobre la paradoja de la marginación .

5voto

Jay Querido Puntos 589

Habría publicado en los comentarios, pero creo que todavía no tengo la reputación. Lo único que falta, que no está en los comentarios ya marcados, es un caso especial de priores no informativos cuyo origen he intentado cazar y no he encontrado. Es posible que sea anterior al artículo de Jeffreys.

Para la distribución normal, he visto que la distribución Cauchy se utiliza como una prioridad no informativa para los datos con una probabilidad normal. La razón es que la precisión de la distribución Cauchy es cero, donde la precisión es uno dividido por la varianza. Esto crea un conjunto bastante peculiar de conceptos contradictorios.

La fórmula de Cauchy es $$\frac{1}{\pi}\frac{\Gamma}{\Gamma^2+(x-\mu)^2}.$$

Dependiendo de cómo se defina la integral, o bien no hay varianza definida, o bien llega al infinito en torno a la mediana, lo que implica que la precisión llega a cero. En la actualización conjugada, que no se aplicaría aquí, se suman las precisiones ponderadas. Creo que por eso se formó esta idea de una previa propia con una densidad perfectamente imprecisa. También es equivalente a la t de Student con un grado de libertad, que también podría ser el origen.

Esta es una idea extraña en el sentido de que la distribución de Cauchy tiene un centro de localización y un rango intercuartil bien definidos, que es $2\Gamma$ .

Las dos primeras referencias a la distribución de Cauchy son como funciones de verosimilitud. La primera en una carta de Poisson a Laplace como excepción al Teorema Central del Límite. La segunda fue en artículos de revistas de 1851 en una batalla entre Bienayme' y Cauchy sobre la validez de los mínimos cuadrados ordinarios.

He encontrado referencias a su uso como previo no informativo hasta los años 80, pero no encuentro un primer artículo o libro. Tampoco he encontrado una prueba de que sea no informativo. Sí he encontrado una cita del libro de Jeffreys de 1961 sobre teoría de la probabilidad, pero nunca he solicitado el libro a través de un préstamo interbibliotecario.

Puede ser simplemente poco informativo. La región de mayor densidad del 99,99% tiene una anchura de 1272 rangos semi-intercuartiles.

Espero que sea de ayuda. Es un caso especial y extraño, pero se ve que aparece en varios trabajos de regresión. Satisface los requisitos de una acción de Bayes al ser un prior adecuado, al tiempo que influye mínimamente en la localización y la escala.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X