28 votos

¿Cuál es la justificación bayesiana para privilegiar los análisis realizados antes que otros análisis?

Antecedentes Empíricos y Ejemplo

Tengo dos estudios; me encontré un experimento (Estudio 1) y, a continuación, se replica (Estudio 2). En el Estudio 1, he encontrado una interacción entre dos variables; en el Estudio 2, esta interacción fue en la misma dirección, pero no significativo. Aquí está el resumen para el Estudio 1 del modelo:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 ** 

Y el Estudio 2 del modelo:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545  

En lugar de decir, "me imagino que no tiene nada, porque yo no se pudo replicar,'" lo que hice fue combinar los dos conjuntos de datos, se creó una variable ficticia para lo que estudio provienen los datos, y luego corrió la interacción de nuevo después de controlar para el estudio de la variable ficticia. Esta interacción fue significativa incluso después de controlar por ella, y me encontré con que esta interacción bidireccional entre el estado y la aversión a/prej no fue calificado por una interacción de tres vías con el estudio de la variable ficticia.

Introducción El Análisis Bayesiano

Tenía a alguien que sugieren que esta es una gran oportunidad para utilizar el análisis Bayesiano: En el Estudio 2, tengo la información del Estudio 1 que puedo utilizar como información previa! De esta manera, el Estudio 2, que está haciendo un Bayesiano de la actualización de la frecuentista, mínimos cuadrados ordinarios resultados en el Estudio 1. Así que, doy la vuelta y volver a analizar el Estudio 2 el modelo, ahora el uso informativo de los priores de los coeficientes: Todos los coeficientes era normal antes de donde la media fue de lo estimado en el Estudio 1 y la desviación estándar fue el error estándar en el Estudio 1.

Este es un resumen de los resultados:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

Parece que ahora tenemos bastante sólida evidencia de una interacción desde el Estudio 2 de análisis. Esto concuerda con lo que hice yo cuando simplemente apilados los datos en la parte superior de uno al otro y corrió el modelo con el número de estudio como un maniquí-variable.

Hipótesis: ¿Qué Si Me Encontré Con El Estudio 2 Primeros?

Que me puso a pensar: ¿y si me había quedado Estudio 2 en primer lugar y, a continuación, utiliza los datos del Estudio 1 para actualizar mis creencias en el Estudio 2? Yo hice lo mismo que el anterior, pero en sentido inverso: me re-analizados en el Estudio 1 de los datos mediante el frecuentista, mínimos cuadrados ordinarios los coeficientes estimados y desviaciones estándar de Estudio 2 como antes los medios y las desviaciones estándar para el análisis de Estudio 1 los datos. El resumen de los resultados fueron:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

De nuevo, vemos evidencia de una interacción, sin embargo, esto no podría haber sido necesariamente el caso. Tenga en cuenta que la estimación para ambos análisis Bayesiano ni siquiera están en el 95% de intervalos de credibilidad para el uno al otro; los dos intervalos de credibilidad de los análisis Bayesiano tiene más de superposición que se superponen.

¿Cuál Es El Bayesiano Justificación Para El Tiempo De Precedencia?

Mi pregunta es, pues: ¿Cuál es la justificación que Bayesians han de respetar la cronología de cómo los datos fueron recogidos y analizados? Obtengo los resultados del Estudio 1 y utilizarlos como informativo de los priores de Estudio 2, de modo que yo uso el Estudio 2 para "actualizar" mis creencias. Pero si asumimos que los resultados que obtengo son tomadas al azar de una distribución con un verdadero efecto de la población... entonces ¿por qué yo privilegio de los resultados del Estudio 1? ¿Cuál es la justificación para el uso de Estudio de 1 resultados como priores de Estudio 2 en lugar de tomar el Estudio 2 resultados como priores de Estudio 1? ¿El orden en el que he recogido y calcula el análisis realmente importa? No parece como a mí-¿cuál es el Bayesiano justificación para esto? ¿Por qué debo creer que el punto de estimación está más cerca de .34 que .17 sólo porque me encontré con el Estudio 1 en primer lugar?


Responder a Kodiologist la Respuesta

Kodiologist comentó:

El segundo de estos puntos para una importante partida que han hecho de Bayesiana de la convención. No ha establecido un antes de la primera y, a continuación, ajuste de ambos modelos en Bayesiano de la moda. Ajuste de un modelo no-Bayesiano de la moda y, a continuación, se utiliza para que los priores para el otro modelo. Si usted utiliza el método convencional, que no se vea la dependencia en el orden que has visto aquí.

Para solucionar esto, me ajuste de los modelos para el Estudio 1 y Estudio 2, donde todos los coeficientes de regresión tenido antes de $\text{N}(0, 5)$. El cond variable una variable ficticia para la condición experimental, 0 o 1; prej variable, así como los resultados, fueron medidos en los 7 puntos de escalas que van de 1 a 7. Por lo tanto, creo que es una justa elección de antes. Sólo por cómo los datos son a escala, sería muy, muy raro ver a los coeficientes mucho más grande de lo que antes se sugiere.

Las estimaciones promedio y la desviación estándar de las estimaciones son aproximadamente los mismos que en la regresión por MCO. Estudio 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

Y Estudio 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

Desde estos medios y desviaciones estándar son más o menos el mismo que el de la OPERACIÓN de las estimaciones, la orden de efecto sobre persiste. Si me plug-in de la parte posterior de las estadísticas de resumen del Estudio 1 en los priores al analizar el Estudio 2, observo un final diferente posterior de la hora de analizar el Estudio 2, primero y, a continuación, utilizar esos posterior resumen de las estadísticas de los priores para el análisis de Estudio de 1.

Incluso cuando yo uso el Bayesiano medios y desviaciones estándar de los coeficientes de regresión como priores en lugar de la frecuentista estimaciones, todavía iba a observar el mismo orden en el efecto. Así que la pregunta sigue siendo: ¿Cuál es el Bayesiano justificación para privilegiar el estudio que vino primero?

25voto

epatel Puntos 32451

Teorema de Bayes dice el posterior es igual a prior * likelihood después de reescalado (por lo que la probabilidad de que las sumas 1). Cada observación tiene un likelihood que puede ser utilizado para la actualización de la prior y crear un nuevo posterior:

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

Así que

posterior_n = prior * likelihood_1 * ... * likelihood_n

La conmutatividad de la multiplicación implica que las actualizaciones pueden realizarse en cualquier orden. Así que si usted comienza con un solo antes, usted puede mezclar las observaciones del Estudio 1 y Estudio 2 en cualquier orden, se aplican de Bayes fórmula y llegar al mismo final posterior.

24voto

avid Puntos 161

En primer lugar debo señalar que:

  1. En su significación-acercamiento de la prueba, seguido de un resultado negativo con un modelo diferente que le dio otra oportunidad para conseguir un resultado positivo. Una estrategia de este tipo aumenta su proyecto-sabio tipo I, la tasa de error. Significado de pruebas requiere la elección de su estrategia analítica de antemano por la $p$-valores correctos.
  2. Te estás poniendo mucha fe en los resultados del Estudio 1 mediante la traducción de sus conclusiones a partir de esa muestra tan directamente en los priores. Recuerde, antes no es sólo un reflejo de los últimos hallazgos. Es necesario codificar la totalidad de sus creencias anteriores, incluyendo sus creencias antes de las conclusiones anteriores. Si usted admite que el Estudio 1 involucradas error de muestreo, así como otros tipos de menos tractiable incertidumbre, tales como la incertidumbre del modelo, se debe utilizar una más conservadora antes.

El segundo de estos puntos para una importante partida que han hecho de Bayesiana de la convención. No ha establecido un antes de la primera y, a continuación, ajuste de ambos modelos en Bayesiano de la moda. Ajuste de un modelo no-Bayesiano de la moda y, a continuación, se utiliza para que los priores para el otro modelo. Si usted utiliza el método convencional, que no se vea la dependencia en el orden que has visto aquí.

5voto

Jay Querido Puntos 589

Pensé que podría hacer una serie de gráficos con una diferente, pero estilizada problema, para mostrar por qué puede ser peligroso para ir de Frecuentista Bayesiana métodos y por qué el uso de las estadísticas de resumen puede crear problemas.

En lugar de utilizar su ejemplo, que es multidimensional, voy a cortarlo a una dimensión con dos estudios cuyo tamaño es de tres observaciones y tres observaciones.

Los datos que estoy utilizando es falso. Ambas muestras han sido forzada a tener una mediana de -1. Esto es importante, ya que proviene de una versión simplificada de la función de densidad que tengo que comúnmente trabajar. El Frecuentista de la densidad y la Bayesiana de la Probabilidad de la función es $$\frac{1}{\pi}\frac{1}{1+(x-\theta)^2}.$$ Esta es la distribución de Cauchy con desconocidos mediana, pero con un parámetro de escala de uno. En forma truncada, es visto como el caso más común en el mercado de valores, y aparece en la física problemas con la rotación de objetos tales como piedras rodando cuesta abajo o en el famoso "Gaviota del Faro Problema".

La estoy usando porque el teorema central del límite no se aplica, carece de suficientes estadísticas, observaciones extremas son comunes, Chebychev de la desigualdad no se mantiene y un anfitrión entero de que normalmente las soluciones factibles se cae a pedazos. La estoy usando porque hace para los grandes ejemplos, sin tener que hacer demasiado trabajo en el problema.

Hay dos muestras. En el primer estudio, los datos se $\{-5,-1,4\}$. En el segundo estudio, los datos se $\{-1.5,-1,-.5\}$. Esta distribución es bueno porque altamente concentrado muestras son comunes y las muestras con una enorme gama son comunes. El 99,99% de intervalo de confianza normalmente es $\pm{669}\sigma$ más que el $\pm{3}\sigma$ más se utilizan.

La parte posterior de las densidades de los dos estudios separados es Bayesian Separate Posteriors

Como es visualmente evidente, tomando las estadísticas de resumen de la muestra podría ser muy engañosa. Si usted está acostumbrado a ver bonito, unimodal, bien definido y nombrado densidades, a continuación, que rápidamente se puede ir fuera de la puerta con Bayesiano de herramientas. No hay ningún nombre de distribución gusta, pero ciertamente se podría describir con el resumen de estadísticas tenido que visualmente no la miraba. El uso de una estadística de resumen podría ser un problema si vamos a utilizar para construir una nueva antes.

El Frecuentista de la confianza de distribución para las dos muestras son iguales. Debido a que la escala es conocido, el único parámetro desconocido es la mediana. Para un tamaño de muestra de tres, la mediana es el MVUE. Mientras que la distribución de Cauchy no tiene media o varianza de la distribución de muestreo de la mediana. Es menos eficiente que el estimador de máxima verosimilitud, pero me toma ningún esfuerzo para calcular. Para tamaños de muestra grandes Rothenberg método es el MVUE y no son de mediano tamaño de la muestra soluciones.

Para la distribución Frecuencial, se obtiene Frequentist Confidence Distribution.

Observe que si hubiera utilizado las estadísticas de resumen se habría conseguido el mismo para ambas muestras. La distribución Frecuencial no dependen en gran medida de los datos debido a que el parámetro de escala es conocida y tienen el mismo medianas. Así que el resumen de las estadísticas son invariantes a las diferencias en las muestras, debido a la mediana común. Mientras usted señalan que este es artificioso y esto no ocurrió en realidad, la distorsión es. El uso de un lenguaje más correcto para Bayesiano pensamiento, el modelo Frecuentista es $\Pr(x|\theta)$ en lugar de $\Pr(\theta|x)$.

La distribución Frecuencial supone una repetición infinita del tamaño de la muestra tres empates y muestra la limitación de la distribución para la distribución de la muestra en los camellones. El Bayesiano de distribución está determinado$x$, por lo que sólo depende de la observada de la muestra y hace caso omiso de las buenas o malas propiedades que esta muestra puede tener. De hecho, la muestra es inusual para Bayesiano métodos y de manera que uno puede ser dado de pausa para formar una inferencia acerca de él. Esta es la razón por la parte posterior es tan amplia, la muestra es inusual. El Frecuentista método es el control de muestras inusuales, mientras que el Bayesiano no lo es. Esto crea la perversa caso de que el agregado de la certeza de que el parámetro de escala reduce la Frecuentista de la solución, pero ensancha el Bayesiano.

La articulación posterior es el producto de las dos posteriores y por la asociatividad de la multiplicación, no importa el orden en que uso. Visualmente, la articulación posterior es Joint and Separate Posteriors.

Es obvio que había que imponer algunas simplificado de distribución en los posteriores y utiliza sus estadísticas de resumen, lo más probable es obtener una respuesta diferente. De hecho, podría haber sido una respuesta muy distinta. Si un 70% creíble región sido utilizado para el estudio de uno, habría sido desconectado creíble región. La existencia de desconectado intervalos sucede en Bayesiano métodos a veces. El gráfico de la densidad más alta de intervalo y de la densidad más baja del intervalo para el estudio uno es HDR versus LDR

Usted notará que el HDR es roto por una astilla de una región que está fuera del conjunto creíble.

Mientras que muchos de estos problemas comúnmente desaparecen en grandes conjuntos con la regresión, permítanme darles un ejemplo de una diferencia natural en cómo Bayesiano y Frecuencial de los métodos manija de la falta de información sobre variables de manera diferente en la regresión.

Considere la posibilidad de un bien construido de regresión con una variable que falta, el tiempo. Supongamos que los clientes se comportan de manera diferente en los días de lluvia y días de sol. Si esa diferencia es suficiente no puede ser fácilmente dos Bayesiano posterior modos. Un modo refleja el sol de la conducta, otra de las lluvias. No sé por qué tiene dos modos. Podría ser una estadística de ejecución o podría ser un punto de datos que falta, pero su ejemplo es inusual o si su modelo tiene una variable omitida.

El Frecuentista solución sería el promedio de los dos estados y puede poner a la línea de regresión en una región donde no hay el comportamiento de los clientes en realidad se produce, sino que el promedio de los dos tipos de comportamiento. También será sesgada a la baja. Los problemas pueden quedar atrapados en el análisis de los residuos, especialmente si hay una gran diferencia en el verdadero variaciones, pero puede que no. Puede ser por una de esas extrañas imágenes de los residuos que se mostrará en la Cruz-validado a partir de tiempo al tiempo.

El hecho de que tienen dos diferentes posteriores a partir de los mismos datos implica que no multiplicar los dos juntos directamente. Ya sea que usted creó una posterior de un Frecuentista solución que no mapa de uno-a-uno con el Bayesiano posterior, o si has creado un antes desde el resumen de las estadísticas y la probabilidad de una función no era perfectamente simétrico, que es común.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X