14 votos

El análisis discriminante lineal y la regla de Bayes: clasificación

¿Cuál es la relación entre el análisis discriminante Lineal y la regla de Bayes? Entiendo que la LDA se utiliza en la clasificación tratando de minimizar la proporción de dentro de un grupo y la varianza entre los grupos de la varianza, pero no sé cómo la regla de Bayes utilizar en ella.

20voto

Uri Puntos 111

Clasificación en LDA es el siguiente (regla de Bayes). [Acerca de la extracción de discriminantes uno podría mirar aquí.]

De acuerdo con el teorema de Bayes, el buscado probabilidad de que estamos tratando con clase $k$, mientras que la observación en la actualidad el punto de $x$$P(k|x) = P(k)*P(x|k) / P(x)$, donde

$P(k)$ – incondicional (de fondo) de la probabilidad de la clase $k$; $P(x)$ – incondicional (de fondo) probabilidad de punto $x$; $P(x|k)$ – probabilidad de presencia de punto de $x$ en la clase $k$, si la clase está siendo tratada con es $k$.

"La observación en la actualidad el punto de $x$" siendo la condición base, $P(x)=1$, y para el denominador puede ser omitido. Por lo tanto, $P(k|x) = P(k)*P(x|k)$.

$P(k)$ es un previo (pre-analítico) la probabilidad de que la clase nativa para $x$ es $k$; $P(k)$ es especificado por el usuario. Normalmente, por defecto, todas las clases de recibir la igualdad de $P(k)$ = 1/number_of_classes. A fin de calcular las $P(k|x)$, es decir, posterior (post-analítico) la probabilidad de que la clase nativa para$x$$k$, uno debe saber $P(x|k)$.

$P(x|k)$ - probabilidad de por sí - no puede ser encontrado, para discriminantes, el principal problema de la LDA, se continua, no discreta, de las variables. La cantidad que expresan $P(x|k)$ en este caso y proporcional a ella es el de densidad de probabilidad (PDF). Por medio de la presente tenemos que calcular el PDF para punto de $x$ en la clase $k$, $PDF(x|k)$, en $p$-dimensiones normales de distribución formada por los valores de $p$ discriminantes. [Ver Wikipedia distribución normal Multivariante]

$$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$$

donde $d$ – el cuadrado de la distancia de Mahalanobis [Ver Wikipedia Mahalanobis distance] en el discriminantes' espacio desde el punto de $x$ a una clase centroide; $\bf S$ – matriz de covarianza entre los discriminantes, se observó dentro de esa clase.

Calcular de esta manera $PDF(x|k)$ para cada una de las clases. $P(k)*PDF(x|k)$ punto $x$ y la clase $k$ expresa el buscado $P(k)*P(x|k)$ para nosotros. Pero con la por encima de la reserva de PDF no es la probabilidad de por sí, sólo proporcional a ella, se debe normalizar $P(k)*PDF(x|k)$, dividiéndolo por la suma de $P(k)*PDF(x|k)$s, con todas las clases. Por ejemplo, si hay 3 clases en todos los, $k$, $l$, $m$, entonces

$P(k|x) = P(k)*PDF(x|k) / [P(k)*PDF(x|k)+P(l)*PDF(x|l)+P(m)*PDF(x|m)]$

Punto de $x$ es asignado por la LDA a la clase para que $P(k|x)$ es el más alto.

Nota. Este fue el enfoque general. Muchos LDA programas por defecto, utilice agrupado dentro de la clase matriz $\bf S$ para todas las clases en la fórmula para el PDF anterior. Si es así, la fórmula se simplifica en gran medida porque tal $\bf S$ en LDA es la matriz de identidad (véase la parte inferior nota de pie de página aquí), y, por tanto, $\bf |S|=1$ $d$ se convierte en distancia euclídea al cuadrado (recordatorio: el conjunto de trabajos dentro de la clase $\bf S$ estamos hablando es de las covarianzas entre los discriminantes, - no entre las variables de entrada, que la matriz es generalmente designado como $\bf S_w$).

Además. Antes de la regla de Bayes enfoque para la clasificación se introdujo a la LDA, Fisher, LDA pionero, propuso calcular el ahora llamado lineal de Fisher clasificación de funciones para clasificar los puntos en LDA. Para el punto de $x$ la función de puntuación de pertenencia a la clase $k$ es combinación lineal $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ donde $V1, V2,...V_p$ son las variables predictoras en el análisis.

Coeficiente de $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$, $g$ siendo el número de clases y $s_{vw}$ es el elemento de la agrupado dentro de la clase de dispersión de la matriz de $p$ $V$-variables.

$Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$.

Punto de $x$ se asigna a la clase para que su puntuación es más alta. Clasificación de los resultados obtenidos por este método de Fisher son idénticos a los obtenidos por de Bayes método sólo si agrupado dentro de la clase matriz de covarianza se utiliza con Bayes método (ver "Nota" más arriba). De Bayes método es más general porque permite el uso independiente dentro de la clase de matrices así.

1voto

mat_geek Puntos 1367

Asumir ponderaciones iguales para los dos tipos de error en un problema de dos clases. Supongamos que las dos clases tienen un multivariante de la clase condicional de la densidad de las variables de clasificación. A continuación, para cualquier vector observado $x$ y la clase condicional densidades $f_1(x)$ $f_2(x)$ la regla de Bayes se clasifican $x$ como pertenecientes al grupo 1 si $f_1(x) \geq f_2(x)$, y como la clase 2 en caso contrario. La regla de Bayes resulta ser un discriminante lineal clasificador si $f_1$ $f_2$ son tanto multivariante normal densidades con la misma matriz de covarianza. Por supuesto, con el fin de ser capaz de ser útil discriminar la media de los vectores deben ser diferentes. Una presentación agradable de esto se puede encontrar en Duda y Hart Patrón de Clasificación y Análisis de la Escena de 1973 (el libro ha sido recientemente revisado, pero me gusta especialmente la presentación en la edición original).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X