6 votos

En la combinación de MVS

Supongamos que tenemos un conjunto de entrenamiento supervisado $T=\{ (x_1, y_1),\dots, (x_n,y_n)\}$ donde $x_i$ es un ejemplo y $y_i \in \{-1,+1\}$ es su etiqueta. Supongamos que los ejemplos sólo son observables a través de una función de función de extracción de $f(x;s)$ donde $x$ es un ejemplo y $s \in \{s_1,\dots,s_m\}$ es un argumento para la extracción de características. Para cada posible valor de $s$, formamos una SVM lineal (en el set $\{ (f(x_1;s), y_1),\dots, (f(x_n;s),y_n)\}$). Deje $w_i$ ser aprendido pesos de la SVM para $s=s_i$.

Mi pregunta es sobre la combinación de los subconjuntos de estas SVMs para la mejora de la clasificación. Específicamente, para un ejemplo de prueba $x$, supongamos que tenemos las puntuaciones de las dos primeras SVMs (extracción de características es costoso): $w_1^T f(x;s_1)$$w_2^Tf(x;s_2)$. ¿Cómo podemos combinar estas puntuaciones (de manera óptima para obtener una decisión final? Un trivial respuesta sería formar un SVM para cada subconjunto de $s$ los valores, pero esto no es manejable.

Idealmente, estoy interesado en un probabilística de la interpretación. Suponiendo que cada uno de los modelos SVM $P(y|f(x;s_i))$, quiero expresar $P(y|f(x;s_1), f(x;s_2))$$P(y|f(x;s_1))$$P(y|f(x;s_2))$.

7voto

Sean B. Durkin Puntos 7723

Tratar de
A] mayoría
B] weighted votación (teniendo en cuenta la distancia al hiperplano como el peso y la confianza de cada hiperplano en su clasificación)
C] AdaBoost [1] el algoritmo.

[1] http://en.wikipedia.org/wiki/AdaBoost

5voto

bogdan Puntos 218

Usted puede encontrar el siguiente artículo de ayuda. Son varias las técnicas que se explican para obtener estimaciones de probabilidad para las salidas de SVM en Milgram.

En la combinación de las estimaciones de la probabilidad de un promedio ponderado o no ponderado suma de las probabilidades naive Bayes o varias otras técnicas pueden ser utilizadas. Consulte el Capítulo 5 para un estudio completo de la fusión de clasificador de salidas. Kittler argumenta teóricamente que la suma de la regla (la suma de las probabilidades de los distintos clasificadores y la elección de la clase con mayor probabilidad) es óptima.

No sé qué tipo de mejora en la precisión que se puede esperar de sólo dos máquinas de vectores soporte. El argumento detrás de conjunto es que la probabilidad de una correcta toma de decisiones colectiva enfoque 1 si el número de clasificadores en el conjunto de enfoque infinito. El uso de sólo dos clasificadores, de acuerdo en la decisión o no de acuerdo en la decisión. Yo creo que el conjunto no será mejor que el mejor clasificador único?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X