22 votos

¿Cómo reduce las dimensiones el análisis discriminante lineal?

Hay palabras de "Los elementos del aprendizaje estadístico" en la página 91:

Los K centroides en el espacio de entrada p-dimensional abarcan como máximo K-1 subespacios dimensionales, y si p es mucho mayor que K, esto supondrá una disminución considerable de la dimensión.

Tengo dos preguntas:

  1. ¿Por qué los K centroides en un espacio de entrada p-dimensional abarcan como máximo K-1 subespacios dimensionales?
  2. ¿Cómo se localizan los centroides K?

No hay ninguna explicación en el libro y no he encontrado la respuesta en documentos relacionados.

18voto

Uri Puntos 111

Los discriminantes son los ejes y las variables latentes que diferencian más fuertemente las clases. El número de discriminantes posibles es $min(k-1,p)$ . Por ejemplo, con k=3 clases en un espacio dimensional p=2 pueden existir como máximo 2 discriminantes como en el gráfico siguiente. (Observe que los discriminantes no son necesariamente ortogonales como ejes dibujados en el espacio original, aunque, como variables, no estén correlacionados). Los centroides de las clases se sitúan dentro del subespacio discriminante en función de sus coordenadas perpendiculares sobre los discriminantes.

enter image description here

El álgebra del LDA en la fase de extracción es aquí .

16voto

martino Puntos 1179

Aunque "The Elements of Statistical Learning" es un libro brillante, requiere un nivel de conocimientos relativamente alto para sacarle el máximo partido. Hay muchos otros recursos en la red que le ayudarán a comprender los temas del libro.

Tomemos un ejemplo muy sencillo de análisis discriminante lineal en el que se desea agrupar un conjunto de puntos de datos bidimensionales en K = 2 grupos. La reducción de dimensiones será sólo de K-1 = 2-1 = 1. Como explicó @deinst, la disminución de las dimensiones se puede explicar con geometría elemental.

Dos puntos de cualquier dimensión pueden unirse mediante una recta, y una recta es unidimensional. Este es un ejemplo de un subespacio K-1 = 2-1 = 1 dimensional.

Ahora, en este sencillo ejemplo, el conjunto de puntos de datos estará disperso en un espacio bidimensional. Los puntos se representarán mediante (x,y), de modo que, por ejemplo, podríamos tener puntos de datos como (1,2), (2,1), (9,10), (13,13). Ahora bien, si se utiliza el análisis discriminante lineal para crear dos grupos A y B, los puntos de datos se clasificarán como pertenecientes al grupo A o al grupo B, siempre que se cumplan determinadas propiedades. El análisis discriminante lineal intenta maximizar la varianza entre los grupos en comparación con la varianza dentro de los grupos.

En otras palabras, los grupos A y B estarán muy separados y contendrán puntos de datos muy próximos entre sí. En este sencillo ejemplo, está claro que los puntos se agruparán de la siguiente manera. Grupo A = {(1,2), (2,1)} y Grupo B = {(9,10), (13,13)}.

Ahora, los centroides se calculan como los centroides de los grupos de puntos de datos, de modo que

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

Los centroides son simplemente 2 puntos y abarcan una línea unidimensional que los une.

Figure 1

Se puede pensar en el análisis discriminante lineal como una proyección de los puntos de datos sobre una línea de forma que los dos grupos de puntos de datos estén lo más "separados posible"

Si tuviéramos tres grupos (y digamos puntos de datos tridimensionales), obtendríamos tres centroides, simplemente tres puntos, y tres puntos en el espacio tridimensional definen un plano bidimensional. De nuevo la regla K-1 = 3-1 = 2 dimensiones.

Le sugiero que busque en Internet recursos que le ayuden a explicar y ampliar la sencilla introducción que he dado; por ejemplo http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X