Algunos de los materiales que he visto en el aprendizaje de máquina, dijo que es una mala idea acercarse a un problema de clasificación a través de la regresión. Pero creo que siempre es posible hacer una continua regresión para ajustar los datos y truncar el continuo de predicción de rendimiento discreto clasificaciones. Entonces, ¿por qué es una mala idea?
Respuestas
¿Demasiados anuncios?"..enfoque del problema de clasificación a través de la regresión.." supongo que te refieres a "regresión lineal" porque, dicen, "regresión logística" algoritmo tiene también la palabra "regresión" en el nombre, pero es un puro clasificación.
Como Andrew Ng, explica que, con la regresión lineal que se ajuste a un polinomio a través de los datos - es decir, como en el ejemplo de abajo estamos ajuste de una línea recta a través de {tamaño del tumor, el tipo de tumor} conjunto de la muestra:
Anteriormente, los tumores malignos obtener $1$ y no malignas reciben $0$, y la línea verde es nuestra hipótesis de $h(x)$. Para hacer predicciones, podemos decir que para cualquier tamaño del tumor $x$, si $h(x)$ hace más de us $0.5$ podemos predecir el tumor maligno, de lo contrario podemos predecir benignos.
Parece de este modo podemos predecir correctamente cada conjunto de entrenamiento de la muestra, pero ahora vamos a cambiar la tarea un poco más.
Intuitivamente es claro que todos los tumores de mayor tamaño determinado umbral son malignos. Así que vamos a añadir otro ejemplo con un enorme tamaño del tumor y la ejecución de regresión lineal de nuevo:
Ahora nuestro $h(x) > 0.5 \rightarrow maligno$ no funciona más. Para seguir haciendo predicciones correctas que necesitamos para cambiarla a $h(x) > 0.2$ o algo así - pero que no se cómo el algoritmo debe trabajar.
No podemos cambiar la hipótesis de que cada vez que una nueva muestra de que llegue. En lugar de eso, debemos aprender de la formación de conjunto de datos y, a continuación, (usando la hipótesis de que hemos aprendido a) hacer predicciones correctas para los datos que no hayamos visto antes.
Espero que esto explica por qué la regresión lineal no es el mejor ajuste para problemas de clasificación! También, usted puede ser que desee para ver VI. La Regresión Logística. Clasificación de vídeo en ml-class.org lo que explica la idea con más detalle.
EDITAR
probabilityislogic le preguntó lo que una buena clasificador iba a hacer. En este ejemplo en particular probablemente el uso de la regresión logística que podría aprender una hipótesis como esta (me estoy inventando esto):
Tenga en cuenta que tanto la regresión lineal y regresión logística dará una línea recta (o un polinomio de orden superior) pero las líneas de tener un significado diferente:
- $h(x)$ para la regresión lineal interpola, o extrapola, la salida y predice el valor de $x$ no hemos visto. Es simplemente, como la conexión de un nuevo $x$ y conseguir un número sin procesar, y es más adecuado para tareas como la predicción de, digamos coche precio basado en {el tamaño del coche, coche de edad} , etc.
- $h(x)$ para la regresión logística indica que todos los puntos sentado a la derecha de la clasificador de la línea de pertenecer a una clase, mientras que los puntos en el lado izquierdo pertenece a la otra clase. En este caso, nuestro $h(x)$ es un número sin procesar, que es la probabilidad de que $x$ pertenece a la "positiva" de la clase.
Así, la línea de fondo es que en la clasificación de un escenario utilizamos una completamente diferente razonamiento y una completamente diferente algoritmo de regresión del escenario.