Puesto que la Regresión logística es un modelo de clasificación de estadística con las variables dependientes categóricas, ¿por qué no llamó Clasificación logística? ¿No debería reservarse el nombre de "Regresión" a los modelos con variables dependientes continuas?
Respuestas
¿Demasiados anuncios?La regresión logística es un enfático no de un algoritmo de clasificación por su propia cuenta. Es sólo un algoritmo de clasificación en combinación con una regla de decisión que hace dicotómica de la predicción de las probabilidades de los resultados. La regresión logística es un modelo de regresión debido a que las estimaciones de la probabilidad de pertenencia a la clase como una transformación de una) multilineal función de las características.
Frank Harrell ha publicado un número de respuestas en este sitio web enumerar las dificultades de relación de regresión logística como un algoritmo de clasificación. Entre ellos:
- Los costos de la mala clasificación no son uniformes en todas las unidades.
- No utilizar los puntos de corte.
- Uso adecuado de reglas de puntuación.
- El problema es en realidad la estimación del riesgo, no de clasificación.
Si recuerdo correctamente, una vez, él me señaló a su libro sobre estrategias de regresión para obtener más elaboración en estos (y más!) puntos, pero me parece que no puede encontrar ese cargo en particular.
De manera abstracta, la regresión es el problema de calcular una esperanza condicional $E[Y|X=x]$. La forma que toma esta expectativa es diferente, dependiendo de los supuestos de cómo los datos fueron generados:
- Suponiendo (Y|X=x) se distribuye normalmente con rendimientos clásico de regresión lineal.
- Asumiendo una distribución de Poisson de los rendimientos de regresión de Poisson.
- Suponiendo una distribución de Bernoulli de los rendimientos de regresión logística.
El término "regresión" también ha sido utilizado de manera más general que el de este, incluyendo enfoques, como el cuantil de regresión, que se estima que un determinado cuantil de $(Y|X=x)$.