Busco entrenar un clasificador que discrimine entre Type A
y Type B
objetos con un conjunto de entrenamiento razonablemente grande de aproximadamente 10.000 objetos, de los cuales aproximadamente la mitad son Type A
y la mitad de los cuales son Type B
. El conjunto de datos consta de 100 características continuas que detallan las propiedades físicas de las celdas (tamaño, radio medio, etc.). La visualización de los datos en gráficos de dispersión y de densidad por pares nos indica que hay un solapamiento significativo en las distribuciones de las células cancerosas y normales en muchas de las características.
Actualmente estoy explorando los bosques aleatorios como método de clasificación para este conjunto de datos, y he visto algunos buenos resultados. Utilizando R, los bosques aleatorios son capaces de clasificar correctamente alrededor del 90% de los objetos.
Una de las cosas que queremos intentar hacer es crear una especie de "puntuación de certeza" que cuantifique el grado de confianza que tenemos en la clasificación de los objetos. Sabemos que nuestro clasificador nunca tendrá una precisión del 100%, e incluso si se consigue una alta precisión en las predicciones, querremos que los técnicos capacitados identifiquen qué objetos son realmente Type A
y Type B
. Así que en lugar de proporcionar predicciones inflexibles de Type A
o Type B
queremos presentar una puntuación para cada objeto que describa cómo A
o B
un objeto es. Por ejemplo, si diseñamos una puntuación que va de 0 a 10, una puntuación de 0 puede indicar que un objeto es muy similar a Type A
objetos, mientras que una puntuación de 10 indicará que un objeto es muy parecido a Type B
.
Estaba pensando que podría utilizar los votos dentro de los bosques aleatorios para idear dicha puntuación. Dado que la clasificación en los bosques aleatorios se realiza por votación mayoritaria dentro del bosque de árboles generados, asumiría que los objetos que fueron votados por el 100% de los árboles para ser Type A
diferiría de los objetos que fueron votados por, digamos, el 51% de los árboles para ser Type A
.
Actualmente, he intentado establecer un umbral arbitrario para la proporción de votos que debe recibir un objeto para ser clasificado como Type A
o Type B
y si no se supera el umbral se clasificará como Uncertain
. Por ejemplo, si fuerzo la condición de que el 80% o más de los árboles deben coincidir en una decisión para que se apruebe una clasificación, me encuentro con que el 99% de las predicciones de clase son correctas, pero alrededor del 40% de los objetos se clasifican como Uncertain
.
¿Tendría sentido, entonces, aprovechar la información de las votaciones para puntuar la certeza de las predicciones? ¿O me estoy equivocando de dirección con mis pensamientos?