Supongamos que tenemos un conjunto de entrenamiento supervisado $T=\{ (x_1, y_1),\dots, (x_n,y_n)\}$ donde $x_i$ es un ejemplo y $y_i \in \{-1,+1\}$ es su etiqueta. Supongamos que los ejemplos sólo son observables a través de una función de función de extracción de $f(x;s)$ donde $x$ es un ejemplo y $s \in \{s_1,\dots,s_m\}$ es un argumento para la extracción de características. Para cada posible valor de $s$, formamos una SVM lineal (en el set $\{ (f(x_1;s), y_1),\dots, (f(x_n;s),y_n)\}$). Deje $w_i$ ser aprendido pesos de la SVM para $s=s_i$.
Mi pregunta es sobre la combinación de los subconjuntos de estas SVMs para la mejora de la clasificación. Específicamente, para un ejemplo de prueba $x$, supongamos que tenemos las puntuaciones de las dos primeras SVMs (extracción de características es costoso): $w_1^T f(x;s_1)$$w_2^Tf(x;s_2)$. ¿Cómo podemos combinar estas puntuaciones (de manera óptima para obtener una decisión final? Un trivial respuesta sería formar un SVM para cada subconjunto de $s$ los valores, pero esto no es manejable.
Idealmente, estoy interesado en un probabilística de la interpretación. Suponiendo que cada uno de los modelos SVM $P(y|f(x;s_i))$, quiero expresar $P(y|f(x;s_1), f(x;s_2))$$P(y|f(x;s_1))$$P(y|f(x;s_2))$.