Índices de Jaccard y PCA

Question

Índices de Jaccard y PCA

Preguntado el 3 de Enero, 2012: Cuando se hizo la pregunta
2121 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Tiene sentido utilizar una matriz compuesta por índices jacard en lugar de una matriz de covarianza y realizar un análisis de componentes principales con ella?

Preguntado el 3 de Enero, 2012 por Mark Dorsey

Answer 1

3 Respuestas

Answer 2

5voto

Sonic Soul Puntos 111

El índice de Jaccard es un núcleo definido positivo como se puede comprobar en Breve recorrido por los métodos kernel para grafos de Gärtner, Le y Smola; véase la definición 1.4 y las referencias más abajo.

Hacer un ACP sobre una matriz de similitudes de Jaccard es como hacer núcleo PCA , que es hacer PCA en el espacio de Hilbert del núcleo reproductor de funciones (sobre conjuntos) inducido por la similitud de Jaccard (o mejor dicho, el núcleo). Hay una comprensión relativamente buena de tal método para el análisis de datos.

Respondido el 4 de Enero, 2012 por Sonic Soul (111 Puntos )

Answer 3

1voto

Uri Puntos 111

Los análisis lineales de componentes principales o de factores se basan en un modelo de regresión lineal y esto implica que las similitudes de entrada deben ser covarianzas , correlaciones , cosenos o suma de productos cruzados (todas estas similitudes se conocen como productos escalares ). Usted puede introduzca cualquier otro tipo de similitud, como la medida de Jaccard o la correlación de Kendall, pero sólo teniendo en cuenta que el análisis "pensará" que es un producto escalar, es decir, la correlación de Pearson habitual o el coseno, en este caso.

Cuando se aplica a las verdaderas correlaciones de Pearson u otro tipo de producto escalar, el PCA reduce la dimensionalidad con una distorsión mínima de la forma de la nube de datos en términos de suma de distancias euclidianas al cuadrado entre los puntos de datos. Con la medida de Jaccard o similar, no se puede decir que el PCA reduzca la dimensionalidad con la función objetivo mencionada.

Respondido el 3 de Enero, 2012 por Uri (111 Puntos )

Answer 4

0voto

dotnetengineer Puntos 584

En el ACP, intentamos explicar de forma "concisa" la variación de los datos POSIBLEMENTE CORRELADOS mediante componentes principales que son ortogonales entre sí. La variación de los datos se representa mediante la matriz de varianza-covarianza.

Por otro lado, un índice jaccard es un coeficiente de similitud. La similitud y la correlación son conceptos bastante diferentes. Según su descripción, si tomamos una matriz de índices de Jaccard, los vectores propios serán ortogonales entre sí, lo cual está bien, pero ¿podremos decir qué fracción de la variación se explica por un determinado $"Jaccard PC"$ ¿ por así decirlo? En el caso de un PC normal, podemos decir con seguridad qué fracción de la variación de los datos está representada por un PCA determinado, que no es más que la relación entre el valor propio correspondiente y la suma de todos los valores propios.

En resumen, los conceptos fundamentalmente diferentes del índice jaccard hacen que no sea sensato utilizarlo en PCA.

Respondido el 3 de Enero, 2012 por dotnetengineer (584 Puntos )

Índices de Jaccard y PCA

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Índices de Jaccard y PCA

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: