Estoy tratando de entender la diferencia estadística entre Análisis discriminante lineal et Regresión logística . ¿Tengo entendido que, para un dos clases problema de clasificación, el LDA predice dos funciones de densidad normal (una para cada clase) que crea una frontera lineal donde se cruzan, mientras que la regresión logística sólo predice la función log-impar entre las dos clases, que crea una frontera pero no asume funciones de densidad para cada clase?
Respuestas
¿Demasiados anuncios?Me parece que tienes razón. En efecto, la regresión logística no asume ninguna forma específica de las densidades en el espacio de las variables predictoras, pero el LDA sí. He aquí algunas diferencias entre los dos análisis, brevemente.
Regresión logística binaria (BLR) contra Análisis discriminante lineal (con 2 grupos: también conocido como LDA de Fisher):
-
BLR : Basado en la estimación de máxima verosimilitud. LDA : Basado en la estimación por mínimos cuadrados; equivalente a la regresión lineal con predictor binario (los coeficientes son proporcionales y R-cuadrado = 1-Wilk's lambda).
-
BLR : Estima la probabilidad (de pertenencia a un grupo) de forma inmediata (el predictor se toma como probabilidad, observada) y condicional. LDA : estima la probabilidad de forma mediata (el predictor se ve como una variable continua binaria, el discriminante) mediante un dispositivo de clasificación (como el Bayes ingenuo) que utiliza tanto la información condicional como la marginal.
-
BLR : No es tan exigente con el nivel de la escala y la forma de la distribución en los predictores. LDA : Predictirs deseablemente nivel de intervalo con distribución normal multivariada.
-
BLR : No hay requisitos sobre las matrices de covarianza dentro del grupo de los predictores. LDA : Las matrices de covarianza dentro del grupo deben ser idénticas en la población.
-
BLR : Los grupos pueden tener una composición muy diferente $n$ . LDA : Los grupos deben tener una composición similar $n$ .
-
BLR : No es tan sensible a los valores atípicos. LDA : Bastante sensible a los valores atípicos.
-
BLR : Método de los jóvenes. LDA : Método más antiguo.
-
BLR : Normalmente se prefiere, porque es menos exigente / más robusto. LDA : Con todos sus requisitos cumplidos, a menudo clasifica mejor que BLR (eficiencia relativa asintótica 3/2 veces mayor entonces).
Permítanme añadir algunos puntos a la bonita lista de @ttnphns:
-
La predicción de Bayes de la probabilidad de pertenencia a la clase posterior del LDA sigue también una curva logística.
[Efron, B. The efficiency of logistic regression compared to normal discriminant analysis, J Am Stat Assoc, 70, 892-898 (1975)]. -
Mientras que ese artículo muestra que la eficiencia relativa del LDA es superior a la del LR si se cumplen los supuestos del LDA (Ref: artículo de Efron arriba, último punto de @tthnps), según los Elementos del Aprendizaje Estadístico en la práctica apenas hay diferencia.
[Hastie, T. y Tibshirani, R. y Friedman, J. The Elements of Statistical Learning; Data mining, Inference andPrediction Springer Verlag, New York, 2009]. -
Ese enorme aumento de la eficacia relativa del LDA se produce sobre todo en los casos asintóticos en los que el error absoluto es prácticamente despreciable de todos modos.
[ Harrell, F. E. & Lee, K. L. A comparison of the discrimination of discriminant analysis and logistic regression under multivariate normality, Biostatistics: Statistics in Biomedical, Public Health and Environmental Sciences, 333-343 (1985)]. -
Aunque en la práctica me he encontrado con situaciones de alta dimensión y pequeño tamaño de muestra en las que el LDA parece superior (a pesar de que los supuestos de normalidad multivariante y de igualdad de la matriz de covarianza no se cumplen visiblemente).
[ Beleites, C.; Geiger, K.; Kirsch, M.; Sobottka, S. B.; Schackert, G. & Salzer, R. Clasificación espectroscópica Raman de tejidos de astrocitoma: uso de información de referencia suave, Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007/s00216-011-4985-4 ] -
Pero hay que tener en cuenta que en nuestro trabajo el LR está posiblemente luchando con el problema de que se pueden encontrar direcciones con una separabilidad (casi) perfecta. El LDA, por otro lado, puede tener un sobreajuste menos severo.
-
Los famosos supuestos del LDA sólo son necesarios para demostrar la optimalidad. Si no se cumplen, el procedimiento puede seguir siendo una buena heurística.
-
Una diferencia que es importante para mí en la práctica, porque los problemas de clasificación en los que trabajo a veces/con frecuencia resultan no ser tan claramente problemas de clasificación: LR puede realizarse fácilmente con datos en los que la referencia tiene niveles intermedios de pertenencia a la clase. Después de todo, es un regresión técnica.
[véase el documento enlazado más arriba]. -
Se puede decir que LR se concentra más que LDA en los ejemplos cercanos al límite de la clase y básicamente descarta los casos en la "parte trasera" de las distribuciones.
-
Esto también explica por qué es menos sensible a los valores atípicos (es decir, los que se encuentran en la parte posterior) que el LDA.
-
(las máquinas de vectores de apoyo serían un clasificador que va en esta dirección hasta el final: aquí se desprecia todo menos los casos en la frontera)
Sólo quería añadir un punto más.
- El LDA funciona cuando todos los las variables independientes/predictivas son continuas (no categórica) y seguir una Distribución normal .
- Mientras que en la Regresión Logística esto no es así y las variables categóricas pueden utilizarse como variables independientes al hacer predicciones.