5 votos

¿Cómo estimar el nivel de confianza para SVM o Random Forest?

Tengo dos clases (decir 1 y 0), y quieren construir un clasificador. Es posible utilizar artificial neural networks (ANN) o cualquier "real" clasificación método como SVM o Random Forest. En caso de ANN, uno puede fácilmente las estimaciones de nivel de confianza de la clasificación. Por ejemplo, si tenemos binario tarea (con salidas como 0 o 1), y ANN de resultados para una muestra de la es 0.92, se puede suponer que ANN "seguro" en la clasificación a 1 de la clase. Alternativamente, si ANN salidas 0.52, se considera como inestable clasificación a 1 flass.

Pero si utilizamos Random Forest o SVM ¿cómo es posible para un nivel de confianza de clasificación?

2voto

Bitwise Puntos 3141

Una estrategia general para cualquier clasificador es el uso de alguna forma de validación cruzada para el mapa de predicción de la salida de la puntuación a una probabilidad, utilizando el siguiente esquema:

  1. Dejar fuera parte del conjunto de datos.
  2. Entrenar el clasificador.
  3. Realizar una predicción sobre la izquierda de los datos.
  4. Para cada uno de predicción de la puntuación, calcular cuál es la probabilidad de cometer un error, dado que la puntuación o una mejor puntuación. Esto también se puede hacer mediante el ajuste de una función que se asigna a la predicción de la puntuación a probabilidades. Una elección natural sería la asignación a una función logística o alguna otra forma de la función sigmoidal que puede comprimir cualquier rango de puntajes a [0,1] como se requiere de una probabilidad.

Para SVMs, esta técnica se llama Platt escala o Platt probabilidades y es aún incluido en algunos SVM implementaciones.

1voto

Raugturi Puntos 91

Bueno, yo no sé acerca de la SVM. Pero con Bosque Aleatorio tienes al menos dos opciones.

Bosque aleatorio se compone de los árboles y en cada árbol, en la terminal de nodo (de la hoja) se puede calcular los llamados de la hoja de estadísticas,que es - número de cubiertos instancias / número de instancias mal clasificadas. O mejor número de instancias correctamente clasificadas / número de cubiertos instancias. Que podría ser de su confianza para un árbol en el Bosque Aleatorio. Para el final de la confianza de todo el bosque se puede calcular el promedio de esta puntuación de todos los árboles que se clasifican en particular instancia correctamente. Creo que de esta manera se calcula en Weka y Rapidminer. La segunda opción es más fácil, simplemente tome la proporción del número de árboles que se clasifican instancia correctamente / total de número de árboles como de confianza. Creo que hay otras maneras, original (Breiman) algoritmo ha llamado "fuera de la bolsa de error" - OOB y creo que poco más de un error de estimación de árboles individuales que usted probablemente puede utilizar en la confianza de cálculo.

Lo siento, yo iba a publicar esto como un comentario, ya que me hizo no decir una palabra acerca de la SVM, pero no tengo suficientes créditos para publicar comentarios y pensé que podría ser útil para usted.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X