10 votos

Análisis discriminante lineal y datos con distribución no normal

Si he entendido bien, un Análisis Discriminante Lineal (LDA) asume datos con distribución normal, características independientes y covarianzas idénticas para cada clase para el criterio de optimalidad.

Dado que la media y la varianza se estiman a partir de los datos de entrenamiento, ¿no es ya una violación?

He encontrado una cita en un artículo (Li, Tao, Shenghuo Zhu y Mitsunori Ogihara. " Uso del análisis discriminante para la clasificación multiclase: Una investigación experimental ." Knowledge and Information Systems 10, no. 4 (2006): 453-72. )

"El análisis discriminante lineal consigue con frecuencia buenos resultados en tareas de reconocimiento de caras y objetos, a pesar de que las suposiciones de una matriz de covarianza común entre los grupos y la normalidad son a menudo normalidad (Duda, et al., 2001)".

-- desgraciadamente, no he podido encontrar la sección correspondiente en Duda et. al. "Pattern Classification".

¿Alguna experiencia o idea sobre el uso de LDA (frente a LDA regularizado o QDA) para datos no normales en el contexto de la reducción de la dimensionalidad?

1 votos

Usted pregunta específicamente por el LDA multiclase. ¿Qué le hace pensar que el LDA multiclase y el LDA biclase se comportan de forma diferente en este sentido (bajo la violación de los supuestos de normalidad y/o covarianza común)?

0 votos

Si no me estoy perdiendo algo aquí, debería basarse en los mismos supuestos, ¿no? Es que no he visto ningún supuesto en el artículo de Rao con respecto a la normalidad, pero he generalizado la pregunta

12voto

zowens Puntos 1417

Esto es lo que Hastie et al. dicen al respecto (en el contexto del LDA de dos clases) en The Elements of Statistical Learning, sección 4.3:

Dado que esta derivación de la dirección del LDA mediante mínimos cuadrados no utiliza una Gaussiana para las características, su aplicabilidad se extiende más allá del ámbito de los datos gaussianos. Sin embargo, la derivación del intercepto particular o punto de corte dado en (4.11) sí requiere datos gaussianos. Por lo tanto, tiene Por lo tanto, tiene sentido elegir el punto de corte que minimiza empíricamente el para un conjunto de datos determinado. Esto es algo que hemos encontrado que funciona bien en práctica, pero no hemos visto que se mencione en la literatura.

No entiendo muy bien la derivación por mínimos cuadrados a la que se refieren, pero en general [Actualización: voy a resumirlo brevemente en algún momento] Creo que este párrafo tiene sentido: incluso si los datos son muy poco gaussianos o las covarianzas de las clases son muy diferentes, el eje del LDA probablemente seguirá produciendo cierta discriminabilidad. Sin embargo, el punto de corte en este eje (que separa dos clases) dado por el LDA puede estar completamente desviado. Optimizarlo por separado puede mejorar sustancialmente la clasificación.

Obsérvese que esto se refiere únicamente al rendimiento de la clasificación. Si todo lo que busca es la reducción de la dimensionalidad, entonces el eje LDA es todo lo que necesita. Así que mi opinión es que para la reducción de la dimensionalidad LDA a menudo hará un trabajo decente, incluso si los supuestos se violan.

En cuanto al rLDA y al QDA: el rLDA debe utilizarse si no hay suficientes puntos de datos para estimar de forma fiable la covarianza dentro de la clase (y es vital en este caso). Y QDA es un método no lineal, por lo que no estoy seguro de cómo utilizarlo para la reducción de la dimensionalidad.

0 votos

Gracias de nuevo por este valioso y exhaustivo comentario. Dejaré la pregunta abierta durante unos días para recoger más opiniones

1 votos

Han pasado pocos días :)

0 votos

Puedo saber que en el contexto de la reducción de la dimensionalidad utilizando LDA/FDA. LDA/FDA can start with n dimensions and end with k dimensions, where k < n . ¿Es eso correcto? O La salida es c-1 where c is the number of classes and the dimensionality of the data is n with n>c.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X