48 votos

Combinación de probabilidades/información de diferentes fuentes

Digamos que tengo tres fuentes independientes y cada una de ellas hace predicciones sobre el tiempo que hará mañana. La primera dice que la probabilidad de que llueva mañana es 0, luego la segunda dice que la probabilidad es 1, y finalmente la última dice que la probabilidad es del 50%. Me gustaría saber la probabilidad total dada esa información.

Si aplico el teorema de la multiplicación para eventos independientes obtengo 0, lo que no parece correcto. ¿Por qué no es posible multiplicar los tres si todas las fuentes son independientes? ¿Existe alguna forma bayesiana de actualizar el prior a medida que obtengo nueva información?

Nota: Esto no es una tarea, es algo en lo que estaba pensando.

50voto

Dipstick Puntos 4869

Usted pregunta por tres cosas: (a) cómo combinar varias previsiones para obtener una única previsión, (b) si se puede utilizar aquí el enfoque bayesiano, y (c) cómo tratar las probabilidades nulas.

La combinación de previsiones, es una práctica común . Si tiene varias previsiones, si saca la media de esas previsiones, la previsión combinada resultante debería ser mejor en términos de precisión que cualquiera de las previsiones individuales. Para promediarlas se puede utilizar una media ponderada en la que las ponderaciones se basan en errores inversos (es decir, la precisión), o contenido informativo . Si tuviera conocimiento de la fiabilidad de cada fuente, podría asignar pesos proporcionales a la fiabilidad de cada fuente, de modo que las fuentes más fiables tuvieran un mayor impacto en la previsión final combinada. En tu caso no tienes conocimiento de su fiabilidad, por lo que cada una de las previsiones tiene el mismo peso y puedes utilizar la media aritmética simple de las tres previsiones

$$ 0\%\times.33+50\%\times.33+100\%\times.33 = (0\%+50\%+100\%)/3=50\% $$

Como se sugirió en los comentarios de @AndyW y @ArthurB. Además de la media ponderada simple, existen otros métodos. Muchos de estos métodos se describen en la literatura sobre el promedio de las previsiones de los expertos, que no conocía antes, así que gracias chicos. Al promediar las previsiones de los expertos, a veces queremos corregir el hecho de que los expertos tienden a retroceder a la media (Baron et al, 2013), o hacer que sus previsiones sean más extremas (Ariely et al, 2000; Erev et al, 1994). Para lograrlo, se pueden utilizar transformaciones de las previsiones individuales $p_i$ Por ejemplo logit función

$$ \mathrm{logit}(p_i) = \log\left( \frac{p_i}{1-p_i} \right) \tag{1} $$

las probabilidades a la $a$ -enfermedad de la piel

$$ g(p_i) = \left( \frac{p_i}{1-p_i} \right)^a \tag{2} $$

donde $0 < a < 1$ o una transformación más general de la forma

$$ t(p_i) = \frac{p_i^a}{p_i^a + (1-p_i)^a} \tag{3} $$

donde si $a=1$ no se aplica ninguna transformación, si $a>1$ las previsiones individuales se hacen más extremas, si $0 < a<1$ Las previsiones se hacen menos extremas, lo que se muestra en la imagen siguiente (véase Karmarkar, 1978; Baron et al, 2013).

enter image description here

Después de esta transformación, las previsiones se promedian (utilizando la media aritmética, la mediana, la media ponderada u otro método). Si se han utilizado las ecuaciones (1) o (2), los resultados deben transformarse a la inversa utilizando el logit inverso para (1) y el logit inverso para (2). probabilidades para (2). Alternativamente, media geométrica puede utilizarse (véase Genest y Zidek, 1986; véase Dietrich y List, 2014)

$$ \hat p = \frac{ \prod_{i=1}^N p_i^{w_i} }{ \prod_{i=1}^N p_i^{w_i} + \prod_{i=1}^N (1 - p_i)^{w_i} } \tag{4}$$

o el enfoque propuesto por Satopää et al (2014)

$$ \hat p = \frac{ \left[ \prod_{i=1}^N \left(\frac{p_i}{1-p_i} \right)^{w_i} \right]^a }{ 1 + \left[ \prod_{i=1}^N \left(\frac{p_i}{1-p_i} \right)^{w_i} \right]^a } \tag{5}$$

donde $w_i$ son pesos. En la mayoría de los casos, pesos iguales $w_i = 1/N$ se utilizan a menos que a priori información que sugiera que existe otra opción. Este tipo de métodos se utilizan para promediar las previsiones de los expertos, con el fin de corregir la falta o el exceso de confianza. En otros casos hay que considerar si está justificado transformar las previsiones en más o menos extremas, ya que puede hacer que la estimación agregada resultante se salga de los límites marcados por la menor y la mayor previsión individual.

Si tiene a priori conocimiento de la probabilidad de lluvia se puede aplicar el teorema de Bayes para actualizar las previsiones dado el a priori probabilidad de lluvia en de forma similar a la descrita aquí . También se puede aplicar un enfoque sencillo, es decir, calcular la media ponderada de sus $p_i$ previsiones (como se ha descrito anteriormente) donde la probabilidad a priori $\pi$ se trata como un punto de datos adicional con un peso preestablecido $w_{\pi}$ como en este Ejemplo de IMDB (véase también fuente o aquí y aquí para la discusión; cf. Genest y Schervish, 1985), es decir

$$ \hat p = \frac{ \left(\sum_{i=1}^N p_i w_i \right) + \pi w_{\pi} }{ \left(\sum_{i=1}^N w_i \right) + w_{\pi} } \tag{6}$$

Sin embargo, de su pregunta no se deduce que tenga ningún a priori conocimiento sobre su problema, por lo que probablemente utilizará un previo uniforme, es decir, asumirá a priori $50\%$ probabilidad de lluvia y esto no cambia mucho en el caso del ejemplo que has proporcionado.

Para tratar los ceros, hay varios enfoques posibles. En primer lugar, hay que tener en cuenta que $0\%$ probabilidad de lluvia no es un valor realmente fiable, ya que dice que es imposible que lloverá. En el procesamiento del lenguaje natural suelen surgir problemas similares cuando en los datos no se observan algunos valores que posiblemente puedan ocurrir (por ejemplo, se cuentan las frecuencias de las letras y en los datos no aparece ninguna letra poco común). En este caso, el estimador clásico de la probabilidad, es decir

$$ p_i = \frac{n_i}{\sum_i n_i} $$

donde $n_i$ es un número de ocurrencias de $i$ valor (de $d$ categorías), le da $p_i = 0$ si $n_i = 0$ . Esto se llama problema de frecuencia cero . Para estos valores conozca que su probabilidad es distinta de cero (¡existen!), por lo que esta estimación es obviamente incorrecta. También hay una preocupación práctica: multiplicar y dividir por ceros conduce a ceros o resultados indefinidos, por lo que los ceros son problemáticos a la hora de tratarlos.

La solución fácil y comúnmente aplicada es, añadir alguna constante $\beta$ a sus cuentas, para que

$$ p_i = \frac{n_i + \beta}{(\sum_i n_i) + d\beta} $$

La elección común para $\beta$ est $1$ es decir, aplicando una prioridad uniforme basada en La regla de sucesión de Laplace , $1/2$ para la estimación de Krichevsky-Trofimov, o $1/d$ para el estimador de Schurmann-Grassberger (1996). Sin embargo, observe que lo que hace aquí es aplicar información fuera de los datos (a priori) en su modelo, por lo que adquiere un sabor subjetivo, bayesiano. Al utilizar este enfoque, hay que recordar las suposiciones que se han hecho y tenerlas en cuenta. El hecho de que tengamos fuertes a priori El conocimiento de que no debería haber ninguna probabilidad cero en nuestros datos justifica directamente el enfoque bayesiano en este caso. En tu caso no tienes frecuencias sino probabilidades, por lo que estarías añadiendo algunas muy pequeño para corregir los ceros. Sin embargo, tenga en cuenta que en algunos casos este enfoque puede tener malas consecuencias (por ejemplo cuando se trata de troncos ), por lo que debe utilizarse con precaución.


Schurmann, T., y P. Grassberger. (1996). Estimación de la entropía de las secuencias de símbolos. Caos, 6, 41-427.

Ariely, D., Tung Au, W., Bender, R.H., Budescu, D.V., Dietz, C.B., Gu, H., Wallsten, T.S. y Zauberman, G. (2000). Los efectos de promediar las estimaciones de probabilidad subjetiva entre y dentro de los jueces. Revista de Psicología Experimental: Aplicada, 6 (2), 130.

Baron, J., Mellers, B.A., Tetlock, P.E., Stone, E. y Ungar, L.H. (2014). Dos razones para hacer previsiones de probabilidad agregada más extremas. Decision Analysis, 11(2), 133-145.

Erev, I., Wallsten, T.S., y Budescu, D.V. (1994). Exceso y falta de confianza simultáneos: El papel del error en los procesos de juicio. Revisión psicológica, 101 (3), 519.

Karmarkar, U.S. (1978). Utilidad ponderada subjetivamente: Una extensión descriptiva del modelo de utilidad esperada. Comportamiento organizativo y rendimiento humano, 21 (1), 61-72.

Turner, B.M., Steyvers, M., Merkle, E.C., Budescu, D.V., y Wallsten, T.S. (2014). Agregación de previsiones mediante recalibración. Aprendizaje automático, 95 (3), 261-289.

Genest, C., y Zidek, J. V. (1986). Combinación de distribuciones de probabilidad: una crítica y bibliografía comentada. Ciencia Estadística, 1 , 114-135.

Satopää, V.A., Baron, J., Foster, D.P., Mellers, B.A., Tetlock, P.E., y Ungar, L.H. (2014). Combinación de múltiples predicciones de probabilidad utilizando un modelo logit simple. Revista Internacional de Previsión, 30 (2), 344-356.

Genest, C., y Schervish, M. J. (1985). Modelización de juicios de expertos para la actualización bayesiana. Los Anales de Estadística , 1198-1212.

Dietrich, F., y List, C. (2014). Agrupación probabilística de opiniones. (No publicado)

11voto

Colin Wren Puntos 11

Hay dos maneras de pensar en el problema. Una es decir que las fuentes observan una versión ruidosa de la variable latente "lloverá / no lloverá".

Por ejemplo, podríamos decir que cada fuente extrae sus estimaciones de un $Beta(a+b,a)$ distribución si va a llover, y una $Beta(a,a+b)$ distribución si no lo hace.

En este caso, el $a$ se retira el parámetro y los tres pronostican, $x$ , $y$ y $z$ se combinaría como

$$p = \frac{1}{1+\left(\frac{1}{x}-1\right)^b\left(\frac{1}{y}-1\right)^b\left(\frac{1}{z}-1\right)^b}$$

$b$ es un parámetro que controla cómo bajo ( $b>1$ ) o sobre ( $b<1$ ) confía en las fuentes. Si suponemos que las estimaciones de las fuentes son insesgadas, entonces $b = 1$ y la estimación se simplifica como

$$\frac{p}{1-p} = \frac{x}{1-x} \frac{y}{1-y} \frac{z}{1-z}$$

Lo que viene a decir que la probabilidad de que llueva es el producto de las probabilidades dadas por cada fuente. Nótese que no está bien definido si una fuente da una estimación de exactamente $1$ y otro da una estimación de exactamente $0$ pero bajo nuestro modelo, esto nunca sucede, las fuentes nunca son que confiado. Por supuesto, podríamos parchear el modelo para permitir que esto ocurra.

Este modelo funciona mejor si piensas en tres personas que te dicen si llovió o no ayer. En la práctica, sabemos que hay un componente aleatorio irreductible en el tiempo, por lo que sería mejor suponer que la naturaleza elige primero una probabilidad de lluvia, que es observada ruidosamente por las fuentes, y luego lanza una moneda sesgada para decidir si va a llover o no.

En ese caso, la estimación combinada se parecería mucho más a una media entre las diferentes estimaciones.

3voto

abyx Puntos 15304

En el marco de Modelo de creencias transferibles (TBM) En el caso de las predicciones, es posible combinar diferentes predicciones utilizando, por ejemplo, la "regla de combinación conjuntiva". Para aplicar esta regla, es necesario transformar las probabilidades de las predicciones en asignaciones de creencias básicas. Esto se puede conseguir con el llamado principio de menor compromiso. En R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

Para el segundo ejemplo de tres predicciones independientes de 0,75, este enfoque devuelve un valor más alto:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

Esto no está muy lejos del enfoque bayesiano mostrado en la respuesta de Arthur B.

2voto

soakley Puntos 1968

Creo que merece la pena mirar el esquema de ponderación basado en errores inversos que se menciona en una de las respuestas. Si las fuentes son realmente independientes y restringimos las ponderaciones para que sumen uno, las ponderaciones vienen dadas por $$ w_1 = {{\sigma_2^2 \sigma_3^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}},\ w_2 = {{\sigma_1^2 \sigma_3^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}},\ w_3 ={{\sigma_1^2 \sigma_2^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}}. $$

Si, como afirma el PO, las previsiones son igualmente fiables, entonces todas las ponderaciones se simplificarán a $\frac{1}{3}$ y la previsión combinada para el ejemplo dado será del 50%.

Tenga en cuenta que los valores de $\sigma_i$ no necesitan conocerse si se conocen sus proporciones relativas. Por lo tanto, si $\sigma_1^2 : \sigma_2^2 : \sigma_3^2 = 1:2:4,$ entonces la previsión en el ejemplo sería $$f = { {{8} \over {14}}*(0) + {{4} \over {14}}*(1) + {{2} \over {14}}*(0.5) } = 0.3571 $$

2voto

Mark Puntos 728

Hay muchas respuestas complicadas a esta pregunta, pero ¿qué pasa con la Media Ponderada de la Varianza Inversa? https://en.wikipedia.org/wiki/Inverse-variance_weighting

En lugar de n mediciones repetidas con un instrumento, si el experimentador realiza n de la misma cantidad con n instrumentos diferentes con distinta calidad de las mediciones...

Cada variable aleatoria se pondera en proporción inversa a su varianza.

La media ponderada de la varianza inversa parece muy sencilla de calcular y, además, tiene la menor varianza de todas las medias ponderadas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X