Tengo una pregunta de probabilidad (si es demasiado básica, mis disculpas ya que estoy aprendiendo), que no consigo entender.
Supongamos que concateno las frases de muchos libros y barajo las frases (de modo que no sabemos de qué libro es una frase) para tener una "base de datos de frases". Suponemos que no hay frases duplicadas y que sabemos que los libros están escritos por dos escritores diferentes. Ahora, dada una frase (secuencia de palabras), podemos encontrar esta frase en 4 oraciones en nuestra base de datos. Y también se nos da que para estas 4 frases:
sentence 1 has 20% probability is written by writer 1
sentence 2 has 60% probability is written by writer 1
sentence 3 has 50% probability is written by writer 2
sentence 4 has 40% probability is written by writer 2
La pregunta es cuál es la probabilidad de que la frase dada sea escrita por el escritor 1 y o ¿Escritor 2?
Mi cálculo es para la probabilidad de que la frase sea escrita por el escritor 1:
$$\frac{20\% + 60\%}{20\% + 60\% + 50\% + 40\%} = 0.470588235$$
y para el escritor 2:
$$1 - 0.470588235 = 0.529411765$$
Mi intuición me dice que lo estoy haciendo mal. Pero no sé dónde está el error, ¿podría indicarlo?
Editar:
He pensado que esta pregunta es similar al cálculo de la probabilidad de un resultado al lanzar una moneda.
Así que si lanzo una moneda 4 veces, con resultados H T T H, entonces la probabilidad de H es 1/2. Así que la fórmula es $$\frac{event\ occurred}{total\ number\ of\ trials}$$
Editar 2:
¿De dónde salen las probabilidades de las sentencias?
Proviene de un algoritmo de aprendizaje automático (SVM).
¿Qué significan?
Como las frases están mezcladas, hemos perdido la información sobre qué escritor escribió esta frase. Sin embargo, conocemos los estilos de escritura (de las frases) de estos dos escritores, así que entrenamos una SVM utilizando los estilos de escritura conocidos como características para dar a cada frase una probabilidad, la probabilidad significa que esta frase tiene un x% de probabilidad de ser escrita por el escritor y.
Como la tarea se está volviendo más difícil ahora. Sólo se nos da una frase para juzgar (me refiero a asignar una probabilidad a esta frase, en caso de que piense que juzgar podría significar una decisión binaria) qué escritor la escribió. (Usted podría decir que no se puede entrenar otro SVM para obtener la probabilidad, al igual que lo que hizo para las probabilidades de la oración. Supongamos que no podemos hacerlo).
He modificado mi pregunta, debería ser "La pregunta es cuál es la probabilidad de que la frase dada sea escrita por el escritor 1 o ¿escritor 2?"