Soy arqueólogo y estoy elaborando reglas para atribuir objetos a una determinada región basándome en una combinación de rasgos específicos de la misma. En concreto, me gustaría estimar la probabilidad de que los objetos que presentan una combinación de dos rasgos sean originarios de una región determinada. Considero (de forma arbitraria, lo admito) que los rasgos que observo se dan de forma independiente y establezco sus tasas de aparición a partir del número limitado de objetos atribuibles con seguridad, actualmente conocidos (por lo tanto, no puedo simplemente aumentar el tamaño de la muestra). Digamos que hay 34 objetos de origen conocido que presentan el rasgo A y 29 de ellos proceden de la región X. Y hay 84 objetos de origen conocido que presentan el rasgo B y 75 de ellos proceden de la región X. Hay que tener en cuenta que muy pocos objetos aparecen en ambas muestras (es decir, los rasgos A y B pero rara vez coinciden, de ahí mi juicio arbitrario sobre su independencia). Utilizando la prueba de Wilson con la corrección de continuidad de Yates (la función prop.test en R), estimo que la probabilidad de que el rasgo A ocurra fuera de la región X está entre 0,06 y 0,32, y la probabilidad de que el rasgo B ocurra fuera de la región X está entre 0,05 y 0,20 con un nivel de confianza del 95%.
prop.test(34-29, 34, conf.level = 0.95, correct=TRUE) # for trait A
prop.test(84-75, 84, conf.level = 0.95, correct=TRUE) # for trait B
Ahora quiero calcular la probabilidad de que una combinación de rasgos A y B se produzca fuera de la región X. ¿Sería correcto decir que puede definirse por los productos de los límites de confianza inferior y superior de los rasgos independientes? ¿Sería correcto decir que P(A B) se encuentra dentro de los límites de confianza 0,06*0,05=0,00 y 0,32*0,20=0,06 y que, por lo tanto, un objeto que presenta ambos rasgos A y B procede de la región X con una probabilidad P(A B) > 1-0,06=94% con un nivel de confianza del 95% (suponiendo que los dos rasgos se distribuyen independientemente)? ¿O me he perdido algo? ¿Cambia el nivel de confianza cuando multiplico las probabilidades?
ACTUALIZACIÓN En un comentario más abajo me sugieren que mejor aplique otro método. Sin embargo, considero que si no hay ningún error en mis cálculos, podrían explicar de forma muy sencilla por qué la combinación de dos rasgos en un mismo monumento proporciona pruebas suficientes y la aparición de un solo rasgo no.
ACTUALIZACIÓN 2: Por lo que observo aplicando el método sugerido por @jwimberley a mis datos, los límites de confianza del producto parecen ser más estrechos que los productos de los límites de confianza inferior y superior originales. ¿Sería seguro decir que esto debería ser siempre así? (O en otras palabras, que el nivel de confianza correspondiente al producto de los límites de confianza originales sería => 95%)?
2 votos
Apuesto a que sería más feliz con un modelo integral y multivariable para predecir la región. Esto le ahorraría potencialmente trabajo, especialmente si añade variables, y daría cuenta de forma concisa de las principales dependencias que existen entre los predictores.
0 votos
Gracias por su sugerencia. Efectivamente, también podría utilizar un modelo lineal generalizado binomial y obtener las probabilidades de predicción y los errores estándar para todas las combinaciones posibles de rasgos. Sin embargo, me pregunto si hay una respuesta a mi pregunta.
0 votos
Básicamente, tengo que explicar en términos muy sencillos cómo funciona mi método y por qué la combinación de dos rasgos en un mismo monumento proporciona pruebas suficientes y la aparición de un solo rasgo no.
0 votos
¿Ha comprobado que estos rasgos son realmente independientes?
1 votos
Posible duplicado: math.stackexchange.com/questions/765887/ Aunque la respuesta que se da en este caso quizá no aborde del todo esta cuestión
0 votos
Entiendo que lo que tengo que comprobar en este caso es si los rasgos A y B son independientes entre los objetos de fuera de la región X, porque estimo la probabilidad de su coocurrencia en un objeto de fuera de la región X. En este contexto, los rasgos son independientes (según la prueba de independencia de chi-cuadrado). En el conjunto de la población, incluidos los objetos de la región X y los objetos de origen desconocido, los rasgos no son independientes, sobre todo porque ambos predicen que un objeto procede de la región X.
0 votos
@jwimberley gracias por la respuesta; ¿había algo que no funcionaba y lo quitaste?
0 votos
@greenb Sí, creo que tengo un gran error en él, al confundir las densidades de probabilidad con las probabilidades, y también al confundir las probabilidades con las probabilidades de probabilidades. Situaciones como esta pueden ser un poco confusas cuando tienes dos niveles de probabilidades. Más tarde veré si puedo arreglarlo.
0 votos
Otra nota: parece que estás razonando con cosas como la "probabilidad de ser de X dado el rasgo A", "probabilidad de tener el rasgo A dado ser de X", etc. No entiendo del todo tus detalles, pero deberías asegurarte de que estás aplicando la regla de Bayes en tus cálculos.