Processing math: 100%

9 votos

LDA vs. perceptron

Estoy tratando de tener una idea de cómo LDA "encaja" dentro de otras técnicas de aprendizaje supervisado. Ya he leído algunos de los mensajes de LDA-esque aquí sobre LDA. Ya estoy familiarizado con el perceptron, pero sólo aprendiendo LDA ahora.

¿Cómo LDA "encaja" en la familia de algoritmos de aprendizaje supervisado? ¿Cuáles podrían ser sus desventajas frente a esos otros métodos, y para qué podría usarse mejor? ¿Por qué utilizar LDA, cuando se podría utilizar, por ejemplo, el perceptron por ejemplo?

8voto

alexs77 Puntos 36

Una de las mayores diferencias entre LDA y los otros métodos es que es una máquina técnica de aprendizaje para los datos que se asume que están distribuidos normalmente. Que puede ser muy bajo en el caso de que falten datos o truncamiento donde se puede utilizar el algoritmo EM para maximizar las probabilidades bajo muy extraño y/o interesante circunstancias. Caveat emptor , porque el modelo de misspecifications, tales como multimodal de datos, puede llevar a los pobres la realización de predicciones donde K-means clustering habría hecho mejor. Multimodal de datos también puede ser explicada con EM para detectar variables latentes o de la agrupación en clústeres en LDA.

Por ejemplo, supongamos que usted está buscando para medir la probabilidad de desarrollo de un diagnóstico positivo de SIDA en 5 años basado en el recuento de CD4. Supongamos, además, que usted no sabe el valor de un biomarcador específico que afecta en gran medida de los recuentos de CD4 y está relacionado con la inmunosupresión. Los recuentos de CD4 menores de 400 están por debajo del límite inferior de detección en la mayoría de las asequible de los ensayos. El algoritmo EM nos permite de forma iterativa calcular la LDA y biomarcadores de asignación y de los medios y la covarianza de las células CD4 para la untruncated DF.

5voto

Bitwise Puntos 3141

Para la intuición, para considerar este caso:

enter image description here

La línea representa el "óptimo límite" entre las dos clases s y x.

LDA intenta encontrar un hyperplane que minimiza el intercluster varianza y maximizar la intracluster varianza, y luego la lleva al límite de ser ortogonales que hyperplane. Aquí, este probablemente no funcionará debido a que los clusters tienen gran parte de la varianza en la misma dirección.

Un tipo perceptrón, por otro lado, puede tener una mejor oportunidad de encontrar una buena separación de hyperplane.

En el caso de las clases que tienen una distribución Gaussiana, sin embargo, la LDA probablemente hará mejor, ya que el tipo perceptrón sólo encuentra una separación de hyperplane que es consistente con los datos, sin dar garantías acerca de que hyperplane se elige (podría haber un número infinito de consistente hyperplanes). Sin embargo, versiones más sofisticadas del tipo perceptrón puede elegir un hyperplane con algunas propiedades óptimas, tales como la maximización del margen entre las clases (esto es lo que esencialmente Máquinas de Vectores Soporte).

También tenga en cuenta que tanto la LDA y de tipo perceptrón puede ser extendida a los no-lineal de la decisión de los límites a través del núcleo truco.

2voto

Ankur Loriya Puntos 160

Como AdamO sugiere en el comentario de arriba, realmente no se puede hacer mejor que leer el Capítulo 4 de Los Elementos de Aprendizaje Estadístico (que voy a llamar a HTF), que compara la LDA con otros lineal métodos de clasificación, dando muchos ejemplos, y también se analiza el uso de la LDA como una dimensión de la técnica de reducción en la vena de la PCA, el cual, como ttnphns señala, es bastante popular.

Desde el punto de vista de la clasificación, creo que la diferencia clave es esta. Imagine que tiene dos clases y se quiere separar de ellos. Cada clase tiene una función de densidad de probabilidad. La mejor situación posible sería si supieras que estas funciones de densidad, porque entonces se podría predecir la clase de un punto que pertenece mediante la evaluación de la clase específica de densidades en ese punto.

Algunos tipos de clasificador de operar mediante la búsqueda de una aproximación a las funciones de densidad de las clases. LDA es uno de estos; se hace la suposición de que la densidad normal multivariante con la misma matriz de covarianza. Esta es una fuerte suposición, pero si es aproximadamente correcta, se obtiene un buen clasificador. Muchos otros clasificadores también tomar este tipo de enfoque, pero trata de ser más flexible que suponiendo normalidad. Por ejemplo, consulte la página 108 de HTF.

Por otro lado, en la página 210, HTF advertir:

Si la clasificación es el objetivo final, luego de aprendizaje de los independientes clase densidades bien puede ser innecesario, y, de hecho, puede ser engañosa.

Otro enfoque es simplemente mirar para un límite entre las dos clases, que es lo que el tipo perceptrón. Una versión más sofisticada de este es la máquina de soporte vectorial. Estos métodos también pueden ser combinados con la adición de características a los datos usando una técnica llamada kernelization. Esto no funciona con LDA porque no preservar la normalidad, pero no es problema para un clasificador que está sólo en busca de una separación de hyperplane.

La diferencia entre LDA y un clasificador que busca la separación de hyperplane es como la diferencia entre el t-test y algunos nonparamteric alternativa ordinario de estadísticas. El último es el más robusto (para los valores extremos, por ejemplo), pero el primero es óptima si sus suposiciones son satisfechos.

Una aclaración más: podría ser vale la pena mencionar que algunas personas podrían tener razones culturales para el uso de métodos como la LDA o de regresión logística, que pueden amablemente escupen tablas ANOVA, pruebas de hipótesis, y tranquilizar las cosas como esa. LDA fue inventado por Fisher; el tipo perceptrón fue originalmente un modelo para un humano o un animal de la neurona y no tenía ninguna relación con las estadísticas. También funciona de otra manera; algunas personas podrían preferir métodos como máquinas de soporte vectorial porque tienen la clase de vanguardia de hipster-cred que el siglo xx métodos no pueden igualar. Esto no significa que estén mejor. (Un buen ejemplo de esto se discute en la Máquina de Aprendizaje para los Hackers, si recuerdo correctamente.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X