Vladimir Vapnik (co-inventor de la Máquina de Soporte Vectorial y líder computacional de aprendizaje teórico) aboga siempre tratando de resolver el problema directamente, en lugar de resolver algún problema más general y, a continuación, descartando algunos de la información proporcionada por la solución. Estoy en general de acuerdo con esto, así que me gustaría sugerir un método de clasificación para el problema , ya que actualmente planteados. La razón de esto es que si sólo estamos interesados en la clasificación de un proyecto como rentable o no rentable, entonces estamos realmente interesados en la región donde la rentabilidad es de alrededor de cero. Si se forma un modelo de clasificación, que es donde vamos a concentrar nuestra modelización de los recursos. Si tomamos un enfoque de regresión, se puede perder el modelado de recursos para hacer pequeñas mejoras en el rendimiento para los proyectos que va a ser muy rentable o no rentable, posiblemente a expensas de mejorar el rendimiento en el límite de los proyectos.
Ahora, la razón que me dijo "como la que actualmente se plantean", es que muy pocos son los problemas realmente implican simple, difícil de clasificación binaria (reconocimiento óptico de caracteres podría ser, probablemente, uno). En general los diferentes tipos de errores de clasificación tienen diferentes costos, o la clase operacional de frecuencias puede ser desconocida o variable, etc. En tales casos, es mejor tener un clasificador probabilístico, tales como la logística de regresión, en lugar de una SVM. Si a mí me parece que para una aplicación financiera, vamos a hacerlo mejor si queremos saber la probabilidad de que el proyecto va a ser rentable, y lo rentable o por el contrario es probable que sea. Bien podríamos estar dispuestos a financiar un proyecto que tiene una pequeña posibilidad de ser rentable, pero enormemente rentable debe tener éxito, pero no un proyecto que está casi garantizado para tener éxito, pero que tiene un pequeño margen de beneficio que sería mejor simplemente meter el dinero en una cuenta de ahorros.
Así que Frank y Omri374 son correctas! (+1 ;o)
EDIT: Para aclarar el por qué de regresión no siempre puede ser una buena aproximación para la solución de un problema de clasificación, aquí es un ejemplo. Digamos que tenemos tres proyectos, con la rentabilidad $\vec{y} = (-\$1000,+\$1, +\$1000)$, and for each project, we have an explanatory variable that we hope is indicative of profitability, $\vec{x} = (1, 2, 10)$. If we take a regression approach (with offset), we get regression coefficients $\beta_0 = -800.8288$ and $\beta_1 = 184.8836$ (provided I have done the sums correctly!). The model then predicts the projects as yielding profits $\hat{y}_1 \aprox -\$616$, $\hat{y}_2 \approx -\$431$ and $\hat{y}_3 \approx \$1048$. Tenga en cuenta que el segundo proyecto es predichos incorrectamente como no rentables. Si, por otro lado, tomamos un método de clasificación y regresión en lugar de $\vec{t} = 2*(y >= 0) - 1$, obtenemos los coeficientes de regresión $\beta_0 = -0.2603$$\beta_1 = 0.1370$, que las puntuaciones de los tres proyectos de la siguiente manera: $\hat{t}_1 = -0.1233$, $\hat{t}_2 = 0.0137$ y $\hat{t}_3 = 1.1096$. Por lo que un método de clasificación correctamente clasifica proyecto 1 inútiles y los otros dos como ser rentable.
La razón por la que esto sucede es que un enfoque de regresión intenta tan duro para minimizar la suma de los errores cuadráticos para cada uno de los puntos de datos. En este caso, un menor de ESS se obtiene al permitir proyecto de dos a caer en el lado incorrecto de la decisión de la frontera, con el fin de lograr disminuir los errores en los otros dos puntos.
Así que Frank está en lo correcto en decir que un método de regresión es probable que sea un buen enfoque en la práctica, pero si la clasificación es en realidad el objetivo último, hay situaciones en las que se puede realizar muy mal, y un método de clasificación tendrá un mejor desempeño.