8 votos

Introducción a la estadística frecuentista de Bayesians

Soy una mente simple Bayesiano que se siente cómodo en el ambiente acogedor del mundo de Bayes.

Sin embargo, debido a fuerzas malignas fuera de mi control, ahora yo tengo que hacer introductorio cursos de posgrado sobre el exótico y extraño mundo de estadística frecuentista. Algunos de estos conceptos parecen muy extraño para mí, y mis profesores no están versados en el conocimiento de Bayes, así que he pensado que me gustaría obtener un poco de ayuda en el internet de aquellos que entienden a la vez.

¿Cómo explicar los diferentes conceptos de estadística frecuentista a un Bayesiano que se encuentra frequentism extraño e incómodo?

Por ejemplo, algunas cosas ya me entienden:

  • El estimador de máxima verosimilitud $\text{argmax}_\theta \;p(D|\theta)$ es igual a la máxima posterior estimador $\text{argmax}_\theta \;p(\theta |D)$ si $p(\theta)$ plano.
  • (no del todo seguro acerca de esto). Si un estimador $\hat \theta$ es una estadística suficiente para un parámetro $\theta$, e $p(\theta)$ es plana, entonces $p(\hat \theta|\theta)=c_1\cdot p(D|\theta)=c_1\cdot c_2\cdot p(\theta|D)$, es decir, la distribución de muestreo es igual a la probabilidad de la función, y, por tanto, igual a la parte posterior del parámetro dado un plano previo.

Esos son ejemplos de explicar frecuentista conceptos a alguien que entienda Bayesianas.

¿Cómo podría usted explicar de manera similar a los otros conceptos centrales de la estadística frecuentista en términos de un Bayesiano puede entender?

Específicamente, estoy interesado en las siguientes preguntas:

  • ¿Cuál es la función de Error cuadrático? En relación a la Bayesiana de la pérdida de las funciones?
  • ¿Cómo funciona el criterio de "unbiasedness" se refieren a la Bayesiana criterios? Sé que un Bayesiano no exigencia de que sus estimadores son insesgados, pero al mismo tiempo, un Bayesiano estaría de acuerdo en que un imparcial frecuentista estimador es generalmente más deseable que una sesgada frecuentista uno (aunque él consideraría tanto a ser inferior a la de los estimador Bayesiano). Entonces, ¿cómo una Bayesiano entender unbiasedness?
  • Si tenemos plana priores, hacer frecuencial de los intervalos de confianza de alguna manera coinciden con Bayesianas?
  • Lo que en el nombre de Laplace está pasando con la especificación de pruebas, como la $F$ prueba? ¿Se trata de algún degenerado caso especial de un Bayesiano de actualización sobre la distribución en el espacio de modelo?

De manera más general:

Hay algunos recursos que explica frequentism a Bayesians? La mayoría de los libros de ejecutar al revés: que explicar Bayesianism a las personas que tienen experiencia en estadística frecuentista.


ps. He mirado, y si bien hay un montón de preguntas ya acerca de la diferencia entre el método Bayesiano y Frequentism, ninguno explícitamente explicar Frequentism desde la perspectiva de un Bayesiano.

Esta pregunta está relacionada, pero no es específicamente acerca de la explicación Frecuentista conceptos a un Bayesiano (más acerca de justificar frecuentista pensamiento en general).

También, mi punto no es para golpear a frequentism. Realmente quiero que se entienda mejor

15voto

Dipstick Puntos 4869

En realidad muchas de las cosas mencionadas por usted se ha discutido por los principales Bayesiano manuales. En muchos casos, estos manuales están escritos para frequentists por la formación, por lo que discutir muchas similitudes y trate de traducir el frecuentista métodos en Bayesiana de la tierra. Un ejemplo es el de Hacer Bayesiano de Datos Análisis de los libro de John K. Kruschke o su papel traducir $t$-prueba en Bayesiana de la tierra. También hay otro psicólogo, Eric-Jan Wagenmakers que con su equipo hablado mucho acerca de la traducción de frecuentista conceptos en Bayesiana de la tierra. La decisión de la teoría de los conceptos tales como la pérdida de las funciones, unbiassness etc. se discuten en El Bayesiano Elección libro de Christian P. Robert.

Por otra parte, algunos de los conceptos mencionados por usted en realidad no son Bayesiano. Por ejemplo, la pérdida de la función es un concepto general, y sólo si se combina con la previa distribución de obtener un riesgo de Bayes.

También vale la pena mencionar que incluso si usted se auto-declaró Bayesiano, entonces usted probablemente ya utilizan una gran cantidad de frecuentista métodos. Por ejemplo, si utiliza MCMC para la estimación y, a continuación, calcula la media de la MCMC cadena como la estimación de punto, entonces usted está usando un frecuentista estimador, ya que no están usando un modelo Bayesiano y priores para obtener la estimación de la media de la MCMC de la cadena.

Por último, algunos frecuentista conceptos y las herramientas no son fácilmente traducibles a Bayesiana de la configuración, o la propuesta de "equivalentes" son más bien pruebas de concepto, entonces algo que te gustaría usar en la vida real. En muchos casos, los enfoques son simplemente diferentes y en busca de parallels es una pérdida de tiempo.

4voto

Lev Puntos 2212

(no del todo seguro acerca de esto). Si un estimador $\hat θ̂$ es un suficiente estadística para un parámetro $θ$, e $p(θ)$ es plana, entonces $p(\hat θ̂ |θ)=p(D|θ)=c⋅p(θ|D)$, es decir, la distribución de muestreo es igual a la probabilidad de la función, y, por tanto, igual a la parte posterior de la parámetro dado un plano previo.

Esto es incorrecto:

  1. $p(D|θ)=p(\hat θ̂ |θ)\times p(D|\hat θ)$ al $\hat θ$ es suficiente estadística
  2. $p(D|θ)=c⋅p(θ|D)$ es falso cuando se la considera como una función de $D$, y cuando se la considera como una función de $θ$ (a menos que uno de los usos de la tv de antes)
  3. sólo hace el posterior basado en $\hat θ$ igual a la posterior basado en $D$ en este contexto.

Además, la suficiencia no tiene nada que ver con frequentism frente a Bayesianism, aunque existen específicamente Bayesiano nociones de suficiencia. Como por ejemplo en la comparación de modelos.

un Bayesiano estaría de acuerdo en que un imparcial frecuentista estimador de generalmente es más deseable que una sesgada frecuentista uno

El problema con esta parte de la pregunta es que los estimadores Bayesianos son frecuencial de los peritos, así como en satisfacer frecuentista propiedades como la admisibilidad o a veces minimaxity. Como se discutió en una reciente entrada de CV, de Bayes estimaciones bajo squared error de la pérdida no puede ser imparcial. Y no hay ninguna razón más allá de usar una especial función de pérdida a favor unbiasedness: minimizar una pérdida posterior es de todo incluido y si la imposición de unbiasedness resulta en una mayor pérdida no debe ser considerado. (Un último punto es que hay muy pocas funciones de los parámetros que permiten imparcial de los estimadores.)

3voto

user164061 Puntos 281

A mí me parece como si usted está considerando un mundo de frequentists y Bayesians. Que no es mucho más matizada. Como si usted tiene que ser el uno o el otro, o como si los métodos aplicados son determinados por el personal cree (en lugar de la comodidad y el problema específico y la información a la mano). Creo que este es un concepto erróneo basado en las tendencias actuales en llamar a sí mismo un frecuentista o Bayesiano, y también un montón de lenguaje estadístico puede ser confuso. Sólo trato de tener un grupo de estadísticos de explicar el p-valor o intervalo de confianza.

Algunas obras clásicas puede ayudar a comprender frecuentista de la inferencia. Las obras clásicas contienen principios fundamentales, están cerca del calor de la discusión entre los defensores, y proporcionar un fondo de la (práctica) de la motivación y relevancia en ese momento.

además, estas obras clásicas en frecuentista métodos, fueron escritas en un tiempo cuando la mayoría de la gente trabajaba con Bayesiano principios y cálculo matemático de la probabilidad (tenga en cuenta que las estadísticas no siempre es como si usted está trabajando en un típico problema de matemáticas con probabilidades, las probabilidades pueden ser muy mal definidos).

Frecuentista de la probabilidad no es la inversa de la probabilidad

'Probabilidad inversa' Fisher 1930

Hacer una noción de la probabilidad como un Bayesiano de expresión con un plano antes de

Sin embargo,

  1. mientras que las matemáticas coinciden (cuando erróneamente interpretada, ya que usted puede obtener P(x|a) = P(a|x), hasta una constante, pero no son los mismos términos) la construcción y el significado es diferente.

  2. Probabilidad de no pretende ser una "probabilidad Bayesiana basada en el piso, o uniformados, priores'. La probabilidad no es ni siquiera una probabilidad y no sigue las reglas de las distribuciones de probabilidad (por ejemplo, usted no puede agregar hasta de probabilidad para diferentes eventos, y la integral no es igual a uno), es sólo cuando se multiplica con un plano previo, que se convierte en una probabilidad, pero entonces, el significado ha cambiado también.

Algunas citas interesantes de 'probabilidad inversa' Fisher 1930.

El método bayesiano y frecuentista métodos son diferentes herramientas:

...hay dos medidas diferentes de creencia racional adecuadas a los diferentes casos. Conocer el población podemos expresar nuestro conocimiento incompleto de, o la expectativa de la muestra en términos de probabilidad; a sabiendas de que el de ejemplo podemos expresar nuestro conocimiento incompleto de la población en términos de probabilidad. Podemos afirmar que la probabilidad relativa de que un desconocido de la correlación es de + 0.6, pero no la probabilidad de que se encuentra en el rango de .595-.605.

Tenga en cuenta que no es una cierta probabilidad de instrucción, que un frecuentista método proporciona.

Mediante la construcción de una tabla de valores correspondientes, se puede saber tan pronto como T se calcula cuál es el fiducial 5 por ciento, el valor de $\theta$, y que el verdadero valor de $\theta$ será menor que este valor en apenas 5 por ciento, de los ensayos. Este es, pues, una cierta probabilidad declaraciónsobre el parámetro desconocido $\theta$, lo cual es cierto, independientemente de cualquier suposición en cuanto a su a priori de la distribución.

  • un método frecuencial hace una declaración acerca de la probabilidad de que un experimento (con intervalo aleatorio) tendrá el verdadero valor de un (posiblemente al azar) parámetro dentro del intervalo dado por una estadística.
  • Este no es el ser confundida con la probabilidad de que una específica experimento (con intervalo fijo) tiene el valor verdadero de la (fijo) parámetro dentro del intervalo dado por la estadística.

Véase también "Sobre el "Error Probable" de un Coeficiente de Correlación Deducida a partir de una Pequeña Muestra.' Fisher 1921 en que Fisher demostró la diferencia de que su método no ser un Bayesiana de la probabilidad inversa.

En el papel antiguo que se ha encontrado, mediante la aplicación de un método desarrollado previamente, de que el << lo más probable es >> el valor de la correlación de la población fue, numéricamente, ligeramente más pequeño que el de la muestra. Esta conclusión fue criticado negativamente en Biometrica, al parecer, en la suposición incorrecta de que yo había deducido desde el teorema de Bayes. Será mostrado en este trabajo que cuando el muestreo de las curvas se representan aproximadamente normal, la corrección que me había propuesto es igual a la distancia entre el valor de población y el punto medio de la toma de muestras de la curva y, en consecuencia, no es más que la corrección de un constante sesgo introducido por el método de cálculo. Ninguna suposición a priori de la probabilidad está involucrado.

y

...dos radicalmente distintos conceptos han sido confundidos bajo el nombre de << probabilidad >> ...

que es la probabilidad y la probabilidad. Ver también la nota en el final de los Pescadores artículo de 1921, en el que habla más en la confusión.

Observe de nuevo que la probabilidad es una función de un conjunto de parámetros, pero no una función de densidad de probabilidad de que ese conjunto de parámetros.

La probabilidad se usa para algo que se puede observar. E. g la probabilidad de que una rollos de dados de seis. La probabilidad se usa para algo que no se puede observar, por ejemplo, la hipótesis de que una rollos de dados de seis 1/6 del tiempo.

también, usted puede ser como el de Fisher, obra en la que él es mucho más ligera en su opinión sobre el teorema de Bayes, (aún que describe las diferencias). "En los fundamentos matemáticos de la teórica estadística de Fisher 1922 (especialmente la sección 6 formal de solución de problema de la estimación')

Más

Si usted puede entender y apreciar los comentarios de Fisher sobre la diferencia entre el inverso de la probabilidad y el principio de la probabilidad de que usted puede desear para leer más sobre las diferencias dentro de frecuentista métodos.

'Esbozo de una Teoría de la Estimación Estadística Basada en la Teoría Clásica de la Probabilidad' Neymar 1937

Que es una obra de 50 páginas y difícil de resumir. Pero se trata de sus preguntas en la onusesgoedness, explica el método de los mínimos cuadrados (y la diferencia con el método de máxima verosimilitud), y, específicamente, proporciona un tratamiento de los intervalos de confianza (intervalo frecuencial ya no son similares, único, digamos que son los mismos que Bayesiano intervalos de tv de los priores).

Con respecto a la prueba F no está claro, lo que en el nombre de Laplace usted piensa que está mal. Si te gusta un uso temprano usted puede mirar en "Estudios en el cultivo de la variación. II. El manurial respuesta de diferentes variedades de papa' 1923 Fisher y Mackenzie

Este papel tiene la expresión de anova en una reconocida modelo lineal subdividir las sumas de cuadrados entre y dentro de los grupos.

(en la prueba de los 1923 artículo la prueba consiste en una comparación de las diferencias entre los registros de la muestra desviaciones estándar con un cálculo del error estándar de la diferencia que es determinado por la suma de los grados de libertad $\frac{1}{2d_1} + \frac{1}{2d_2}$. Las obras posteriores de hacer este expresiones más sofisticadas que conduce a la distribución F, tal que se puede difundir las ideas que uno pueda tener al respecto. Pero en esencia, sin la técnica de malabares debido a la más exacta de las distribuciones para pequeñas cantidades, su origen es mucho como un z-test).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X