1 votos

Una interesante tarea de aprendizaje automático

Hay 5 programas. Cada programa es un clasificador binario, que clasifica las cartas: "Spam" y "No spam". Todos los clasificadores determinan la categoría correctamente en el 60% de los casos, independientemente de otros clasificadores.

Supongamos que hay un nuevo clasificador que inicia cada uno de los módulos y clasifica la letra de la manera en que al menos 3 de 5 la clasificarían.

¿Qué precisión tendrá ese clasificador?

Supongo que esto se resuelve mediante el teorema bayesiano.

0 votos

La respuesta requiere que sepamos qué quiere decir con clasificadores "independientes". No es plausible que sean estadísticamente independiente, pero no es eso, entonces ¿qué quieres decir?

1 votos

¿Es así? No es necesariamente un problema del mundo real, así que podemos fingir que los algoritmos son cajas negras que funcionan según los caprichos de los dioses de las matemáticas para que muestren ese comportamiento.

0 votos

@whuber Todos los clasificadores determinan la categoría correctamente en el 60% de los casos, independientemente de otros clasificadores.

1voto

Johnny Puntos 151

Suponiendo que sean realmente independientes, entonces cada clasificador tiene un 40% de probabilidades independientes de equivocarse para cualquier elemento. Su nuevo programa, si lo he entendido bien, elige la "opinión" mayoritaria de los cinco clasificadores originales. Esta será una opinión compartida entre 3, 4 o 5 clasificadores - estos son los tres escenarios que debemos considerar.

Los clasificadores que coinciden deben ser todos erróneos o todos correctos. Hay 10 permutaciones en las que tres clasificadores aciertan, y cada una de estas permutaciones tiene una probabilidad de $0.4^2 \times 0.6^3 = 0.0346$ . Por lo tanto, la probabilidad global de que usted base su decisión final en tres clasificaciones correctas es $10 \times 0.0346 = 0.346$ .

Hay 5 permutaciones en las que cuatro clasificadores aciertan, cada una de las cuales tiene una probabilidad de $0.4 \times 0.6^4 = 0.0518$ . Por lo tanto, la probabilidad total de que se produzca este escenario es $5 \times 0.0518 = 0.2592$ .

Por último, es posible que todos los clasificadores acierten, lo que sólo puede ocurrir en una configuración (sólo 1 forma única de ordenar cinco respuestas idénticas), que tiene una probabilidad de $0.6^5 = 0.0778$ .

Así que la probabilidad combinada de que su decisión por mayoría sea correcta es $0.346 + 0.2592 + 0.0778 = 0.6826$ .

De forma más general, la solución a este tipo de problemas viene dada por:

$$ p_{correct} = \sum_{k=\frac{n}{2}+1}^{k=n} \binom{n}{k} (1-p)^{n-k} \times p^k $$

donde $n$ es el número de clasificadores independientes en los que se basa la decisión y $p$ es la probabilidad de que cada uno de estos clasificadores sea correcto. Tenga en cuenta que el teorema de Bayes no entra en juego.

En la práctica, si los cinco clasificadores se basan en los mismos datos, entonces, como ha señalado Whuber, es muy poco probable que sean realmente independientes. Para que eso ocurra, sería necesario que cada clasificador analizara un subconjunto distinto de los datos (por ejemplo, diferentes trozos de cada letra) y que estos subconjuntos no estuvieran correlacionados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X