Estoy estudiando una máquina de aprendizaje del curso y la conferencia de las diapositivas contienen información de lo que me parece contradecirse con el libro recomendado.
El problema es el siguiente: hay tres clasificadores:
- clasificadora Un proporcionando un mejor rendimiento en el rango inferior de los umbrales,
- clasificador B, proporcionando un mejor rendimiento en la gama más alta de los umbrales,
- clasificador C lo que tenemos por voltear un p-la moneda y la selección de los dos clasificadores.
¿Cuál será el rendimiento del clasificador C, como se ve en una curva ROC?
La conferencia de las diapositivas del estado que, con solo voltear la moneda, vamos a obtener el mágico "convex hull" de clasificador a y B de la curva ROC.
No entiendo este punto. Simplemente lanzar una moneda, ¿cómo podemos obtener información?
La conferencia de diapositivas
Lo que dice el libro
El libro recomendado (Minería de Datos... por Ian H. Witten, Eibe Frank y Mark A. Hall) por otro lado, declara que:
Para ver esto, elegir una probabilidad de corte para Un método que da la verdadera y las tasas de falsos positivos de la tA y de la fA, respectivamente, y otro de corte para el método B que da la tuberculosis y fB. Si utiliza estos dos los esquemas en aleatorio con probabilidades p y q, donde p + q = 1, entonces usted conseguirá la verdadera y las tasas de falsos positivos de p . tA + q . la tuberculosis y la p . fA + q . fB. Esto representa un punto de la mentira en la línea recta uniendo los puntos (tA, fA) y (tB, fB), y por la variación de p y q se puede trazar la línea completa entre estos dos puntos.
A mi entender, lo que dice el libro es que para realmente obtener información y llegar a la convex hull necesitamos hacer algo más avanzado que el de simplemente apretar un p-moneda.
AFAIK, la forma correcta (como se sugiere en el libro) es la siguiente:
- debemos encontrar un umbral óptimo de Oa para Un clasificador
- debemos encontrar un umbral óptimo de Obstetricia para clasificador B
-
definir C de la siguiente manera:
- Si t < Oa, el uso de Un clasificador con t
- Si t > Obstetricia, utilizar el clasificador de la B con t
- Si Oa < t < Obstetricia, escoger entre Un clasificador con Oa y B con Obstetricia por la probabilidad como una combinación lineal de donde nos encontramos entre la Oa y Ob.
Es esto correcto? Si sí, hay algunas diferencias importantes en comparación con lo que las diapositivas sugieren.
- No es una simple moneda de voltear, pero más avanzado algoritmo que debe definir manualmente los puntos y recoge basado en lo que la región caemos en.
- Nunca se utiliza el clasificador de a y B con los valores de umbral entre la Oa y Ob.
Puede que me explique este problema y cuál es la manera correcta de entender que, si mi entendimiento no fue la correcta?
¿Qué pasaría si pudiéramos simplemente hacia un p-moneda como las diapositivas sugeriría? Yo creo que obtendríamos una curva ROC que se entre a y B, pero nunca "mejor" que la mejor de uno en un momento dado.
Tal y como yo lo veo, yo realmente no entiendo cómo las diapositivas podrían ser correctas. El cálculo probabilístico en el lado izquierdo no tiene sentido para mí.
Actualización: El artículo escrito por el autor original que inventó el convex hull método: http://www.bmva.org/bmvc/1998/pdf/p082.pdf