3 votos

Índices de Jaccard y PCA

¿Tiene sentido utilizar una matriz compuesta por índices jacard en lugar de una matriz de covarianza y realizar un análisis de componentes principales con ella?

5voto

Sonic Soul Puntos 111

El índice de Jaccard es un núcleo definido positivo como se puede comprobar en Breve recorrido por los métodos kernel para grafos de Gärtner, Le y Smola; véase la definición 1.4 y las referencias más abajo.

Hacer un ACP sobre una matriz de similitudes de Jaccard es como hacer núcleo PCA , que es hacer PCA en el espacio de Hilbert del núcleo reproductor de funciones (sobre conjuntos) inducido por la similitud de Jaccard (o mejor dicho, el núcleo). Hay una comprensión relativamente buena de tal método para el análisis de datos.

1voto

Uri Puntos 111

Los análisis lineales de componentes principales o de factores se basan en un modelo de regresión lineal y esto implica que las similitudes de entrada deben ser covarianzas , correlaciones , cosenos o suma de productos cruzados (todas estas similitudes se conocen como productos escalares ). Usted puede introduzca cualquier otro tipo de similitud, como la medida de Jaccard o la correlación de Kendall, pero sólo teniendo en cuenta que el análisis "pensará" que es un producto escalar, es decir, la correlación de Pearson habitual o el coseno, en este caso.

Cuando se aplica a las verdaderas correlaciones de Pearson u otro tipo de producto escalar, el PCA reduce la dimensionalidad con una distorsión mínima de la forma de la nube de datos en términos de suma de distancias euclidianas al cuadrado entre los puntos de datos. Con la medida de Jaccard o similar, no se puede decir que el PCA reduzca la dimensionalidad con la función objetivo mencionada.

0voto

dotnetengineer Puntos 584

En el ACP, intentamos explicar de forma "concisa" la variación de los datos POSIBLEMENTE CORRELADOS mediante componentes principales que son ortogonales entre sí. La variación de los datos se representa mediante la matriz de varianza-covarianza.

Por otro lado, un índice jaccard es un coeficiente de similitud. La similitud y la correlación son conceptos bastante diferentes. Según su descripción, si tomamos una matriz de índices de Jaccard, los vectores propios serán ortogonales entre sí, lo cual está bien, pero ¿podremos decir qué fracción de la variación se explica por un determinado $"Jaccard PC"$ ¿ por así decirlo? En el caso de un PC normal, podemos decir con seguridad qué fracción de la variación de los datos está representada por un PCA determinado, que no es más que la relación entre el valor propio correspondiente y la suma de todos los valores propios.

En resumen, los conceptos fundamentalmente diferentes del índice jaccard hacen que no sea sensato utilizarlo en PCA.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X