Suponiendo que sean realmente independientes, entonces cada clasificador tiene un 40% de probabilidades independientes de equivocarse para cualquier elemento. Su nuevo programa, si lo he entendido bien, elige la "opinión" mayoritaria de los cinco clasificadores originales. Esta será una opinión compartida entre 3, 4 o 5 clasificadores - estos son los tres escenarios que debemos considerar.
Los clasificadores que coinciden deben ser todos erróneos o todos correctos. Hay 10 permutaciones en las que tres clasificadores aciertan, y cada una de estas permutaciones tiene una probabilidad de $0.4^2 \times 0.6^3 = 0.0346$ . Por lo tanto, la probabilidad global de que usted base su decisión final en tres clasificaciones correctas es $10 \times 0.0346 = 0.346$ .
Hay 5 permutaciones en las que cuatro clasificadores aciertan, cada una de las cuales tiene una probabilidad de $0.4 \times 0.6^4 = 0.0518$ . Por lo tanto, la probabilidad total de que se produzca este escenario es $5 \times 0.0518 = 0.2592$ .
Por último, es posible que todos los clasificadores acierten, lo que sólo puede ocurrir en una configuración (sólo 1 forma única de ordenar cinco respuestas idénticas), que tiene una probabilidad de $0.6^5 = 0.0778$ .
Así que la probabilidad combinada de que su decisión por mayoría sea correcta es $0.346 + 0.2592 + 0.0778 = 0.6826$ .
De forma más general, la solución a este tipo de problemas viene dada por:
$$ p_{correct} = \sum_{k=\frac{n}{2}+1}^{k=n} \binom{n}{k} (1-p)^{n-k} \times p^k $$
donde $n$ es el número de clasificadores independientes en los que se basa la decisión y $p$ es la probabilidad de que cada uno de estos clasificadores sea correcto. Tenga en cuenta que el teorema de Bayes no entra en juego.
En la práctica, si los cinco clasificadores se basan en los mismos datos, entonces, como ha señalado Whuber, es muy poco probable que sean realmente independientes. Para que eso ocurra, sería necesario que cada clasificador analizara un subconjunto distinto de los datos (por ejemplo, diferentes trozos de cada letra) y que estos subconjuntos no estuvieran correlacionados.
0 votos
La respuesta requiere que sepamos qué quiere decir con clasificadores "independientes". No es plausible que sean estadísticamente independiente, pero no es eso, entonces ¿qué quieres decir?
1 votos
¿Es así? No es necesariamente un problema del mundo real, así que podemos fingir que los algoritmos son cajas negras que funcionan según los caprichos de los dioses de las matemáticas para que muestren ese comportamiento.
0 votos
@whuber Todos los clasificadores determinan la categoría correctamente en el 60% de los casos, independientemente de otros clasificadores.
0 votos
Lo que quieres decir es "independencia condicional" - condicionada a que la carta sea spam o no. De lo contrario, es evidente que no son estadísticamente independientes. Además, no hay suficiente información para resolver el problema: la precisión también debería estar condicionada a que sea spam o no. Si se hace la suposición simplificadora de que la precisión es la misma para el spam y para el no spam (no es muy realista), esto se convierte en un simple problema de probabilidad binomial - al menos 3 aciertos de 5 - sin necesidad de invocar a Bayes.