3 votos

multiplicación de probabilidades de eventos independientes con intervalos de confianza en arqueología

Soy arqueólogo y estoy elaborando reglas para atribuir objetos a una determinada región basándome en una combinación de rasgos específicos de la misma. En concreto, me gustaría estimar la probabilidad de que los objetos que presentan una combinación de dos rasgos sean originarios de una región determinada. Considero (de forma arbitraria, lo admito) que los rasgos que observo se dan de forma independiente y establezco sus tasas de aparición a partir del número limitado de objetos atribuibles con seguridad, actualmente conocidos (por lo tanto, no puedo simplemente aumentar el tamaño de la muestra). Digamos que hay 34 objetos de origen conocido que presentan el rasgo A y 29 de ellos proceden de la región X. Y hay 84 objetos de origen conocido que presentan el rasgo B y 75 de ellos proceden de la región X. Hay que tener en cuenta que muy pocos objetos aparecen en ambas muestras (es decir, los rasgos A y B pero rara vez coinciden, de ahí mi juicio arbitrario sobre su independencia). Utilizando la prueba de Wilson con la corrección de continuidad de Yates (la función prop.test en R), estimo que la probabilidad de que el rasgo A ocurra fuera de la región X está entre 0,06 y 0,32, y la probabilidad de que el rasgo B ocurra fuera de la región X está entre 0,05 y 0,20 con un nivel de confianza del 95%.

prop.test(34-29, 34, conf.level = 0.95, correct=TRUE) # for trait A
prop.test(84-75, 84, conf.level = 0.95, correct=TRUE) # for trait B

Ahora quiero calcular la probabilidad de que una combinación de rasgos A y B se produzca fuera de la región X. ¿Sería correcto decir que puede definirse por los productos de los límites de confianza inferior y superior de los rasgos independientes? ¿Sería correcto decir que P(A B) se encuentra dentro de los límites de confianza 0,06*0,05=0,00 y 0,32*0,20=0,06 y que, por lo tanto, un objeto que presenta ambos rasgos A y B procede de la región X con una probabilidad P(A B) > 1-0,06=94% con un nivel de confianza del 95% (suponiendo que los dos rasgos se distribuyen independientemente)? ¿O me he perdido algo? ¿Cambia el nivel de confianza cuando multiplico las probabilidades?

ACTUALIZACIÓN En un comentario más abajo me sugieren que mejor aplique otro método. Sin embargo, considero que si no hay ningún error en mis cálculos, podrían explicar de forma muy sencilla por qué la combinación de dos rasgos en un mismo monumento proporciona pruebas suficientes y la aparición de un solo rasgo no.

ACTUALIZACIÓN 2: Por lo que observo aplicando el método sugerido por @jwimberley a mis datos, los límites de confianza del producto parecen ser más estrechos que los productos de los límites de confianza inferior y superior originales. ¿Sería seguro decir que esto debería ser siempre así? (O en otras palabras, que el nivel de confianza correspondiente al producto de los límites de confianza originales sería => 95%)?

2 votos

Apuesto a que sería más feliz con un modelo integral y multivariable para predecir la región. Esto le ahorraría potencialmente trabajo, especialmente si añade variables, y daría cuenta de forma concisa de las principales dependencias que existen entre los predictores.

0 votos

Gracias por su sugerencia. Efectivamente, también podría utilizar un modelo lineal generalizado binomial y obtener las probabilidades de predicción y los errores estándar para todas las combinaciones posibles de rasgos. Sin embargo, me pregunto si hay una respuesta a mi pregunta.

0 votos

Básicamente, tengo que explicar en términos muy sencillos cómo funciona mi método y por qué la combinación de dos rasgos en un mismo monumento proporciona pruebas suficientes y la aparición de un solo rasgo no.

1voto

Altar Puntos 101

Dejando a un lado algunas de las preguntas que se plantean en los comentarios (¿hay un procedimiento mejor? ¿has verificado que los rasgos son realmente independientes?), aquí tienes una respuesta directa: No, el intervalo de confianza del producto no es igual al producto de los intervalos de confianza separados. El primer intervalo de confianza establece esencialmente que $$ \int_{p_A^L}^{p_A^U} f_A(p_A) \, dp_A = 0.95 $$ y la segunda que $$ \int_{p_B^L}^{p_B^U} f_B(p_B) \, dp_B = 0.95 $$ Nótese que se trata de integrales de densidades de probabilidades!. Ahora, ¿cuál es la densidad del producto de probabilidades $\rho = p_A p_B$ ? De un resultado estándar Esto es $$ f_{P}(\rho) = \int_0^1 \frac{f_A(p) f_B(\rho/p)}{p} \, dp $$ La FCD de esta distribución es $$ F_{P}(\rho) = \int_0^1 \frac{f_A(p)}{p} \left( \int_0^\rho f_B(p'/p) \, dp' \right)\, dp \\ = \int_0^1 f_A(p) F_B(\rho/p) \, dp $$ De ello no se deduce que $$ \int_{p_A^L p_B^L}^{p_B^U p_B^U} f_P(\rho) \, d\rho = 0.95 $$ que es lo que usted estima. Lo que debes resolver es $$ \int_{p_P^L}^{p_P^U} f_P(\rho) \, d\rho = 0.95 $$ para los nuevos límites del intervalo de confianza $p_P^L$ y $p_P^U$

No estoy seguro de que haya una forma de estimar esto independientemente del modelo. He aquí una idea: algunos intervalos de confianza de la probabilidad se basan en métodos que modelan las densidades $f_A$ y $f_B$ como las distribuciones normales o las distribuciones beta. Tengo entendido (creo) que la prueba de Wilson se basa en un método frecuentista con una aproximación normal; una alternativa es un método bayesiano que utiliza distribuciones beta. Si obtienes los parámetros de estas distribuciones normales o distribuciones beta, puedes calcular analíticamente (poco probable) o numéricamente (más probable) las integrales anteriores y encontrar tu intervalo de confianza.

Por ejemplo, el binom en R realiza la estimación bayesiana de proporciones binomiales con binom.bayes .

> print(A <- binom.bayes(34-29, 34, conf.level = 0.95))
  method x  n shape1 shape2      mean      lower     upper  sig
1  bayes 5 34    5.5   29.5 0.1571429 0.04866337 0.2771654 0.05
> print(B <- binom.bayes(84-75, 84, conf.level = 0.95))
  method x  n shape1 shape2      mean      lower     upper  sig
1  bayes 9 84    9.5   75.5 0.1117647 0.04949479 0.1793428 0.05

Lo que más nos importa son los parámetros de forma; con ellos tenemos $f_A$ y $f_B$ y puede calcular numéricamente $f_P$ . Esto es más fácil a través de la integración de MC:

dbetaprod <- Vectorize(function(x,alpha1,beta1,alpha2,beta2) {
    p <- rbeta(1000,alpha1,beta1)
    mean(dbeta(x/p,alpha2,beta2)/p)
},"x")

pbetaprod <- Vectorize(function(x,alpha1,beta1,alpha2,beta2) {
    p <- rbeta(1000,alpha1,beta1)
    mean(pbeta(x/p,alpha2,beta2))
},"x")

A continuación, puede trazar la densidad y la FDA para encontrar el intervalo de confianza:

enter image description here

enter image description here

Parece que el límite superior de la ventana de confianza del 95% es de aproximadamente 0,04 (4%). Puede modificar este procedimiento para adaptarlo a sus necesidades específicas.

0 votos

Muchas gracias por su extensa respuesta. Por lo que observo al aplicar el método que sugieres a mis datos, los límites de confianza del producto parecen ser más estrechos que los productos de los límites de confianza inferior y superior originales. ¿Sería seguro decir que esto debería ser siempre así? (O en otras palabras que el nivel de confianza correspondiente al producto de los límites de confianza originales sería => 95%)?

1 votos

No creo que sea seguro decir esto, no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X