15 votos

La combinación de clasificadores, lanzando una moneda

Estoy estudiando una máquina de aprendizaje del curso y la conferencia de las diapositivas contienen información de lo que me parece contradecirse con el libro recomendado.

El problema es el siguiente: hay tres clasificadores:

  • clasificadora Un proporcionando un mejor rendimiento en el rango inferior de los umbrales,
  • clasificador B, proporcionando un mejor rendimiento en la gama más alta de los umbrales,
  • clasificador C lo que tenemos por voltear un p-la moneda y la selección de los dos clasificadores.

¿Cuál será el rendimiento del clasificador C, como se ve en una curva ROC?

La conferencia de las diapositivas del estado que, con solo voltear la moneda, vamos a obtener el mágico "convex hull" de clasificador a y B de la curva ROC.

No entiendo este punto. Simplemente lanzar una moneda, ¿cómo podemos obtener información?

La conferencia de diapositivas

lecture slides

Lo que dice el libro

El libro recomendado (Minería de Datos... por Ian H. Witten, Eibe Frank y Mark A. Hall) por otro lado, declara que:

Para ver esto, elegir una probabilidad de corte para Un método que da la verdadera y las tasas de falsos positivos de la tA y de la fA, respectivamente, y otro de corte para el método B que da la tuberculosis y fB. Si utiliza estos dos los esquemas en aleatorio con probabilidades p y q, donde p + q = 1, entonces usted conseguirá la verdadera y las tasas de falsos positivos de p . tA + q . la tuberculosis y la p . fA + q . fB. Esto representa un punto de la mentira en la línea recta uniendo los puntos (tA, fA) y (tB, fB), y por la variación de p y q se puede trazar la línea completa entre estos dos puntos.

A mi entender, lo que dice el libro es que para realmente obtener información y llegar a la convex hull necesitamos hacer algo más avanzado que el de simplemente apretar un p-moneda.

AFAIK, la forma correcta (como se sugiere en el libro) es la siguiente:

  1. debemos encontrar un umbral óptimo de Oa para Un clasificador
  2. debemos encontrar un umbral óptimo de Obstetricia para clasificador B
  3. definir C de la siguiente manera:

    • Si t < Oa, el uso de Un clasificador con t
    • Si t > Obstetricia, utilizar el clasificador de la B con t
    • Si Oa < t < Obstetricia, escoger entre Un clasificador con Oa y B con Obstetricia por la probabilidad como una combinación lineal de donde nos encontramos entre la Oa y Ob.

Es esto correcto? Si sí, hay algunas diferencias importantes en comparación con lo que las diapositivas sugieren.

  1. No es una simple moneda de voltear, pero más avanzado algoritmo que debe definir manualmente los puntos y recoge basado en lo que la región caemos en.
  2. Nunca se utiliza el clasificador de a y B con los valores de umbral entre la Oa y Ob.

Puede que me explique este problema y cuál es la manera correcta de entender que, si mi entendimiento no fue la correcta?

¿Qué pasaría si pudiéramos simplemente hacia un p-moneda como las diapositivas sugeriría? Yo creo que obtendríamos una curva ROC que se entre a y B, pero nunca "mejor" que la mejor de uno en un momento dado.

Tal y como yo lo veo, yo realmente no entiendo cómo las diapositivas podrían ser correctas. El cálculo probabilístico en el lado izquierdo no tiene sentido para mí.

Actualización: El artículo escrito por el autor original que inventó el convex hull método: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

12voto

Adam Puntos 2432

(Editado)

La conferencia de las diapositivas están a la derecha.

El método tiene un "punto óptimo" que da la verdadera y las tasas de falsos positivos (TPA, FPA en el gráfico), respectivamente . Este punto corresponde a un umbral, o más en general[*] una decisión óptima límite para A. Todos lo mismo va para B. (Pero los umbrales y los límites no están relacionados).

Es evidente que Un clasificador realiza agradable en virtud de la preferencia de "minimizar los falsos positivos" (estrategia conservadora) y clasificador B cuando queremos "maximizar verdaderos positivos" (con ganas de estrategia).

La respuesta a tu primera pregunta, es básicamente sí, salvo que la probabilidad de que la moneda es (en cierto sentido) arbitrario. El final clasiffier sería:

Si $x$ pertenece a la "óptima aceptación de la región" (conservador), el uso que Un clasificador (es decir: aceptar) Si $x$ pertenece a la "óptima rechazo región de B" (con ganas), el uso que el clasificador de B (es decir, rechazar) En otros lugares , una moneda con probabilidad de $p$ y el uso de la clasificación a o B.

(Corregido: en realidad, las clases son completamente a la derecha, podemos simplemente voltear la moneda, en cualquier caso. Ver diagramas)

Usted puede utilizar cualquier fija $p$ en el intervalo (0,1), depende de si quieres ser más o menos conservador, es decir, si quieres estar más cerca de uno de los puntos o en el medio.

[*] Debe ser general aquí: si usted piensa en términos de un escalar único umbral, todo esto tiene poco sentido; unidimensional cuentan con un umbral basado en el clasificador no le da suficiente grados de libertad para tener diferentes clasificadores como a y B, que se realiza a lo largo de diferentes curvas cuando el libre parámetros (decisión límite=umbral) varía. En otras palabras: a y B son llamados "métodos" o "sistemas", no "clasificadores"; porque es toda una familia de clasificadores, parametrizadas por algún parámetro (escalares) que determina una decisión límite, no sólo un escalar]

He añadido algunos diagramas para hacerlo más claro:

enter image description here

Supongamos que una característica bidimensional, el diagrama muestra algunas de las muestras, los puntos verdes son los "buenos", el rojo para las "malas". Supongamos que el método tiene un sintonizable parámetro $t$ (umbral, de desplazamiento, de sesgo), los valores más altos de $t$ convierte el clasificador más dispuesto a aceptar ('Sí'). Las líneas naranjas corresponden a la frontera de decisión para este método, para diferentes valores de $t$. Es evidente que este método (en realidad una familia de clasificadores) funciona especialmente bien para las $t_A=2$, en el sentido de que tiene muy pocos falsos positivos por una cantidad moderada de verdaderos positivos. Por el contrario, el método B (azul), que tiene su propio sintonizable parámetro $t$ (no relacionados con los que de Una) funciona especialmente bien ($t_B=4$) en la región de gran aceptación: el llenado de la línea azul alcanza alta verdadero positivo de la relación.

En este escenario, entonces, se puede decir que el llenado de la línea naranja es el "óptimo de Un clasificador" (dentro de su familia), y lo mismo para B. Pero uno no puede decir si la línea naranja es mejor que la línea azul: uno realiza mejor cuando nos asssign alto costo a los falsos positivos, y el otro cuando los falsos negativos son mucho más costosos.

enter image description here

Ahora, podría suceder que estos dos clasificadores son demasiado extremos para nuestras necesidades, nos gustaría que ambos tipos de errores tienen pesos similares. Preferimos, en lugar de utilizar Un clasificador (punto naranja) o B (punto azul) para alcanzar un rendimiento que es entre ellos. Como el curso dice, uno puede llegar a ese resultado si se acaba de lanzar una moneda y elegir uno de los clasificadores al azar.

Simplemente lanzar una moneda, ¿cómo podemos obtener información?

No nos ganancia de información. Nuestro nuevo estudio aleatorizado clasificador no es simplemente "mejor" que Un o B, el rendimiento es de un promedio de a y B, en lo que respecta a los costos asignados a cada tipo de error. Que puede ser o no ser beneficioso para nosotros, dependiendo de cuáles son nuestros gastos.

AFAIK, la forma correcta (como se sugiere en el libro) es la siguiente ... Es esto correcto?

De verdad que no. La forma correcta es simplemente: lanza una moneda con probabilidad de $p$, elija un clasificador (el óptimo de la Una o la óptima B) y clasificar con que el clasificador.

2voto

mat_geek Puntos 1367

Estoy de acuerdo con tu razonamiento. Si utiliza el clasificador por moneda volteando a elegir uno entre los puntos a y B del punto sobre la curva de estar siempre por debajo de la mejor clasificador y por encima de los más pobres, y no posiblemente por encima de los dos! Debe haber algo mal con el diagrama. En el punto donde el 2 curvas ROC de la cruz de la selección al azar algoritmo tendrá el mismo rendimiento que los dos algoritmos. No va a estar por encima de la forma que el diagrama representa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X