6 votos

Intuición sobre el significado profundo de distribuciones previas bayesianas y su influencia en posteriores

En la estimación de las distribuciones posteriores, Bayesians se basan en la idea de la distribución previa. En muchos ejemplos, veo que esta siendo bastante arbitrariamente, es decir, ~N(0,1).

Es claro que la parte posterior está íntimamente relacionado con el anterior, sin embargo, el hecho de que es arbitrario parece insatisfactoria. Además, el estado afecta a la parte posterior en forma cualitativa. Visto en el sentido de una "ponderado" de la media, esto es aún más satisfactorio.

Mis dos preguntas son:

¿Cuál es el valor de tener a los priores cuando parecen arbitrarias, o son handwaved o calculado en una etapa posterior? Si esta descripción despectiva de la atención de los priores es correcta, y desde los priores son tan integral Bayesiano estadísticas, no esta socavar la práctica o la teoría de la Bayesiano stats?

Relacionadas con la pregunta: no priores tienen una considerable influencia en el resultado posterior? (Si no, la pregunta anterior se aplica). Si lo hacen, y ya que al parecer no pensar mucho es dado, no esta sólo tiene que pulsar el "filosofía" y "contenido" de Bayesiana estadísticas en una caja negra?

Me libremente admitir que esta cuestión no parece estar bien (o es vergonzoso para mí). En mi educación sobre Bayesiano estadísticas ido mal?

2voto

Jay Querido Puntos 589

Su declaración de que los ecos de Jaynes. Dijo

Cuando nos fijamos en estos problemas con la suficiente nivel fundamental y darse cuenta de lo cuidadoso que uno se debe especificar la información previa antes de que tengamos un bien planteado el problema, se hace evidente que no es, de hecho, la lógica no diferencia entre (3.51) y (4.3); exactamente los mismos principios son necesarios para asignar el muestreo de probabilidades o las probabilidades previas, y de un hombre de muestreo de probabilidad es de otro hombre antes de probabilidad.

Las ecuaciones en el capítulo tres están en la primaria de muestreo de teoría y cuatro en primaria la prueba de hipótesis.

Hay tres métodos principales para crear Bayesiana de la teoría de Cox, de Finetti y Salvaje de los axiomas. Cox está construido sobre la lógica, de Finetti en el juego y Salvaje de las preferencias.

En los tres casos, usted no recibe bien planteado problemas con cálculos arbitrarios. Si usted piensa en una probabilidad de instrucción como una declaración acerca de una lógica de afirmación, a continuación, para obtener una respuesta apropiada a todas las partes de la argumentación lógica debe ser incluido. Del mismo modo, cuando uno juega, uno tendría que estar loco con el propósito de omitir información sobre la que se va a jugar. Finalmente, se plantea la racionalidad con respecto a las preferencias de ignorar el conocimiento.

Creo que el error viene de una mala interpretación de las probabilidades como las frecuencias. Ellos no lo son. Largo plazo de las frecuencias no se deriva de métodos Bayesianos. Puede ser el caso de que tengan bonito Frecuentista propiedades, pero esto es incidental.

Ahora, esta pregunta es hay alguna circunstancia en la que uno debe ignorar la información previa y la respuesta es "sí". Mientras uno no es la introducción de información contradictoria o dañar la afirmación no puede ser. Considere el caso de una alta dimensión del modelo con prohibitivo cálculo de los costos que podrían ser aproximadas de cerca por una solución aproximada. El debilitamiento de la anterior da una solución cuando un fuerte antes hace que sea imposible hacer el trabajo. Asimismo, considere la posibilidad de una baja dimensión del modelo, donde el tiempo es de la esencia y la determinación de un completo antes resultaría en pérdidas catastróficas debido a las limitaciones de tiempo. Este es el terrorista con la bomba escenario. En ese caso, es racional para utilizar menos que la información disponible.

La pereza o la ignorancia no es una excusa para ignorar la previa.

2voto

Debanjan Basu Puntos 111

Así es como he leído tu pregunta: "¿por Qué son los priores da valores arbitrarios cuando tienen una influencia en el cálculo posterior?"

Nota: yo vengo de una formación en la física -- por favor, hágamelo saber si usted piensa que estoy utilizando algunos términos mal.

Voy a plantear una serie de cuestiones atómicas y responder a ellos como yo de comprender desde la perspectiva de la estadística Bayesiana.

  1. Notación y términos: creo que de un sistema conectado a cada uno de los otros causalmente en pares (piense en un grafo dirigido). Las cantidades se dividen en Consulta, Oculto y de la Evidencia. La probabilidad posterior es dado por $P(Q|E) = \sum_H P(Q|E,H)P(H)$, es marginal con respecto a las variables en el Oculto($H$) de la clase.
    La declaración del Teorema de Bayes es
    $\underbrace{P(Q|E)}_{\text{posterior distribution of Q given E}} = \frac{{\overbrace{P(E|Q)}^{\text{likelihood of E given Q}}}\;\times\;{\overbrace{P(Q)}^{\text{prior distribution of Q}}}}{\sum_{Q'}P(E|Q')P(Q')}$
  2. Es el previo importante para el cálculo de la parte posterior?: Dado suficiente evidencia/datos y un simple suficiente espacio para eventos, no. Pero una elección adecuada de la anterior puede conducir a la "correcta" posterior dado menos evidencia/datos o menos iteraciones.
  3. Es la distribución previa ignorado en la práctica?: Dada la suficiente cantidad de datos, no es importante porque se puede utilizar el valioso tiempo que usted tiene para otras cosas. Pero tener una distribución previa disponible a partir de experimentos permite un mejor comprobaciones de estado (pruebas o depuración) una vez que la parte posterior se obtiene.
  4. Cuando es el antes de la distribución importante en todo?
    1. Menos datos está disponible
    2. Similares múltiples hipótesis en competencia (correlacionado con el hecho de tener un mayor espacio para eventos)
    3. Filosóficamente importante a Jayne (o de lo que subjetivamente cree que es Jayne la explicación de la anterior -- no he tenido mucho tiempo para asimilarlo todavía) enfoque.
  5. Lo que tiene sentido para la mecánica estadística? Está bien pedir explicaciones sobre eventos discretos espacios sin hacer referencia a los priores. Pero ante multidimensional de los sistemas en los que la mayoría de los problemas de escala como el factorial, a mí me parece que la maximización de la entropía sobre las restricciones dadas ES una manera muy pragmática. Pero luego,como un principiante, no he tenido el tiempo suficiente para entender si esta es la única o mejor opción posible.

1voto

bheklilr Puntos 113

A mi posiblemente idiosincrasia de vista es el siguiente. Si tuviéramos un exacto, totalmente conocido, antes de la distribución de los parámetros, posiblemente basadas en convicciones y creencias, y sabíamos que la verdadera función de probabilidad, el paradigma Bayesiano nos da la forma óptima de actualización que antes con la probabilidad de obtener un trabajo posterior. En la vida real no tenemos, ya sea previa o una probabilidad, excepto en lo que me parece raro de los casos, por lo que aplicar una intuitiva "suavidad en función del espacio" el argumento que se ejecuta de la siguiente manera. Tan largo como el anterior utilizamos para el cálculo es más cercano a la realidad, no observables antes tenemos, y la probabilidad de la función que debemos usar para el cálculo es más cercano a la realidad, generalmente incognoscible probabilidad de la función, aplicando el paradigma Bayesiano nos llevará a una posterior que es más cercano a la realidad, uncalculatable posterior. Aplicando el paradigma Bayesiano incluso con aproximado de los priores y de las probabilidades es probable que obtenga más cerca de nosotros (en promedio) de hacer algo más, ya que se elimina una fuente de ruido en el movimiento desde antes de la posterior - ruido debido al uso de un subóptima la actualización de algoritmo.

Este, entonces, es el valor de tratar a su estado previo de la información como una distribución de probabilidad - se permite el uso óptimo de la actualización de algoritmo, reduciendo así el error en las creencias se forman después de que has mirado los datos.

Como bien extensa nota de lado, esto implica que la robustez Bayesiana es una característica deseable de nuestro proceso en general (la asignación de los priores y probabilidad de funciones, de realizar la actualización de los cálculos), la más así como nuestra confianza en la exactitud de nuestra construidos / asumido antes y funciones de probabilidad se degrada. En algún momento, vamos a tener muy poca confianza en nuestra capacidad para formar cualquier tipo de aproximación razonable a uno, el otro o ambos, que bien podemos abandonar el paradigma Bayesiano y hacer algo más. Como alternativa, el costo de establecer y ejecutar el paradigma Bayesiano puede ser tan grande, en comparación con los beneficios de los mismos, lo que somos, de nuevo, mejor hacer algo más, como la ejecución de un clásico de la prueba t, la observación de un t-estadístico de 19.4, y el rechazo de la hipótesis nula de que hemos creado sólo para hacer la vida más sencilla.

Ahora, en cuanto a la influencia de los priores, que depende de la anterior, la probabilidad de la función, y la de datos. Es muy fácil encontrar todo tipo de situaciones del mundo real donde los datos que supera la anterior, en cuyo caso incluso muy diferentes de los priores de plomo muy similares posteriores. En estas situaciones, la preocupación acerca de la probabilidad es mucho más importante que preocuparse por el prior. Por otro lado, en situaciones donde la obtención de datos es de costo o tiempo de uso intensivo de la información previa puede tener que ser cuidadosamente extraídos de los expertos pertinentes con el fin de hacer el mejor uso de él como podemos. (Este fue el caso en mi trabajo anterior, en el que lo hice análisis de fiabilidad para los paneles solares y seguidores, entre otras cosas, a probar un grande, costosa pieza de equipo que se supone que para realizar el seguimiento del sol para obtener un tiempo medio hasta el fallo se requiere mucho tiempo y es costoso.) Así, la influencia de la anterior es de la situación, y que la misma situationality unidades donde deberíamos centrar nuestros esfuerzos con el fin de hacer el mejor uso de la óptima actualización del algoritmo que el Teorema de Bayes nos da.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X