8 votos

Clasificación vs regresión de predicción del signo de una variable respuesta continua

Digo que quiero predecir si un proyecto será rentable. En mis datos de la muestra, la variable de respuesta es realmente una variable continua: la pérdidas de $ del proyecto.

¿Porque mi objetivo final es sólo una clasificación binaria (proyecto rentable o no rentables), debo usar una técnica de clasificación? ¿O debo utilizar regresión para que yo no estoy echando lejos la información adicional que proporciona una variable respuesta continua?

17voto

John Richardson Puntos 1197

Vladimir Vapnik (co-inventor de la Máquina de Soporte Vectorial y líder computacional de aprendizaje teórico) aboga siempre tratando de resolver el problema directamente, en lugar de resolver algún problema más general y, a continuación, descartando algunos de la información proporcionada por la solución. Estoy en general de acuerdo con esto, así que me gustaría sugerir un método de clasificación para el problema , ya que actualmente planteados. La razón de esto es que si sólo estamos interesados en la clasificación de un proyecto como rentable o no rentable, entonces estamos realmente interesados en la región donde la rentabilidad es de alrededor de cero. Si se forma un modelo de clasificación, que es donde vamos a concentrar nuestra modelización de los recursos. Si tomamos un enfoque de regresión, se puede perder el modelado de recursos para hacer pequeñas mejoras en el rendimiento para los proyectos que va a ser muy rentable o no rentable, posiblemente a expensas de mejorar el rendimiento en el límite de los proyectos.

Ahora, la razón que me dijo "como la que actualmente se plantean", es que muy pocos son los problemas realmente implican simple, difícil de clasificación binaria (reconocimiento óptico de caracteres podría ser, probablemente, uno). En general los diferentes tipos de errores de clasificación tienen diferentes costos, o la clase operacional de frecuencias puede ser desconocida o variable, etc. En tales casos, es mejor tener un clasificador probabilístico, tales como la logística de regresión, en lugar de una SVM. Si a mí me parece que para una aplicación financiera, vamos a hacerlo mejor si queremos saber la probabilidad de que el proyecto va a ser rentable, y lo rentable o por el contrario es probable que sea. Bien podríamos estar dispuestos a financiar un proyecto que tiene una pequeña posibilidad de ser rentable, pero enormemente rentable debe tener éxito, pero no un proyecto que está casi garantizado para tener éxito, pero que tiene un pequeño margen de beneficio que sería mejor simplemente meter el dinero en una cuenta de ahorros.

Así que Frank y Omri374 son correctas! (+1 ;o)

EDIT: Para aclarar el por qué de regresión no siempre puede ser una buena aproximación para la solución de un problema de clasificación, aquí es un ejemplo. Digamos que tenemos tres proyectos, con la rentabilidad $\vec{y} = (-\$1000,+\$1, +\$1000)$, and for each project, we have an explanatory variable that we hope is indicative of profitability, $\vec{x} = (1, 2, 10)$. If we take a regression approach (with offset), we get regression coefficients $\beta_0 = -800.8288$ and $\beta_1 = 184.8836$ (provided I have done the sums correctly!). The model then predicts the projects as yielding profits $\hat{y}_1 \aprox -\$616$, $\hat{y}_2 \approx -\$431$ and $\hat{y}_3 \approx \$1048$. Tenga en cuenta que el segundo proyecto es predichos incorrectamente como no rentables. Si, por otro lado, tomamos un método de clasificación y regresión en lugar de $\vec{t} = 2*(y >= 0) - 1$, obtenemos los coeficientes de regresión $\beta_0 = -0.2603$$\beta_1 = 0.1370$, que las puntuaciones de los tres proyectos de la siguiente manera: $\hat{t}_1 = -0.1233$, $\hat{t}_2 = 0.0137$ y $\hat{t}_3 = 1.1096$. Por lo que un método de clasificación correctamente clasifica proyecto 1 inútiles y los otros dos como ser rentable.

La razón por la que esto sucede es que un enfoque de regresión intenta tan duro para minimizar la suma de los errores cuadráticos para cada uno de los puntos de datos. En este caso, un menor de ESS se obtiene al permitir proyecto de dos a caer en el lado incorrecto de la decisión de la frontera, con el fin de lograr disminuir los errores en los otros dos puntos.

Así que Frank está en lo correcto en decir que un método de regresión es probable que sea un buen enfoque en la práctica, pero si la clasificación es en realidad el objetivo último, hay situaciones en las que se puede realizar muy mal, y un método de clasificación tendrá un mejor desempeño.

10voto

dan90266 Puntos 609

No puedo pensar en un ejemplo donde se recomienda una técnica de clasificación cuando la variable es ordinal o continuo. Después de montar eficientemente un modelo continuo puede usar ese modelo para estimar la probabilidad que $Y$ supera cualquier nivel de interés. Si el modelo es Gaussiano esta probabilidad es una función de la media prevista y la desviación de estándar residual.

3voto

Peter Puntos 658

Después de leer los comentarios, creo que la siguiente distinción es lo que falta de la discusión:

Cómo modelar el problema

Esto no tiene nada que ver con lo que la técnica a utilizar. La pregunta es ¿cuál de las entradas y salidas son y cómo evaluar el resultado.

Si realmente sólo preocuparse acerca de si o no nuestros proyectos son rentables, y la cantidad por la que son tan absolutamente irrelevante, entonces usted debe este modelo como un problema de clasificación. Eso significa que usted está al final de la optimización de la tasa esperada de clasificación correcta (precisión) o de las AUC. Lo que esta optimización se traduce depende de qué técnica utilizar.

Todas las preguntas del modelo de elección y de los algoritmos de búsqueda puede ser abordado de forma heurística (utilizando argumentos que se han expuesto en las otras respuestas y comentarios), pero la última prueba del budín está en comerlo. Sea cual sea el modelo que usted tiene, va a evaluar por la cruz validado las pruebas de exactitud, por lo que la precisión es lo que optimizar.

¿Cómo resolver el problema

Usted puede utilizar cualquier método que usted como que se ajusta a la clasificación de paradigma. Puesto que usted tiene un continuo y variable, que puede hacer la regresión en que, y traducir a una clasificación binaria. Esto probablemente va a funcionar bien. Sin embargo, no hay ninguna garantía de que el óptimo modelo de regresión (por suma de los cuadrados de los errores o de máxima verosimilitud o lo que sea) también le dará la clasificación óptima del modelo (por la exactitud o AUC).

1voto

whalesalad Puntos 114

Un modelo de clasificación general intenta minimizar la muestra (error en términos de clase) y no el sesgo. En el caso de muchos de los afloramientos, por ejemplo, preferiría usar un modelo de clasificación y no un modelo de regresión.

0voto

Peter Puntos 658

Me gustaría enmarcar el problema como el de la minimización de la pérdida. La pregunta es ¿cuál es su verdadera función de pérdida? Hace una predicción incorrecta de rentable cuando el proyecto perdió \$1 cost as much as a prediction of profitable when the project lost \$1000? En este caso, la función de pérdida es realmente binario, y es mejor de fundición de todo el asunto como un problema de clasificación. La función de regresión todavía puede ser uno de los candidatos de los clasificadores, pero usted debe optimizar con la discreta pérdida de función en lugar de la continua. Si usted tiene una más complicada definición de pérdida, entonces usted debe tratar de formalizar, y ver lo que se obtiene si se toma la derivada.

Curiosamente, muchos de los métodos de aprendizaje automático optimizar una función de pérdida discreta mediante la aproximación de un continuo, desde una discreta pérdida de función proporciona a los pobres de los gradientes de optimización. Así que usted puede terminar encima de colada como un problema de clasificación, ya que su función de pérdida, pero, a continuación, se aproximan a la pérdida de la función con el original continuo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X