¿Tiene sentido utilizar una matriz compuesta por índices jacard en lugar de una matriz de covarianza y realizar un análisis de componentes principales con ella?
Respuestas
¿Demasiados anuncios?El índice de Jaccard es un núcleo definido positivo como se puede comprobar en Breve recorrido por los métodos kernel para grafos de Gärtner, Le y Smola; véase la definición 1.4 y las referencias más abajo.
Hacer un ACP sobre una matriz de similitudes de Jaccard es como hacer núcleo PCA , que es hacer PCA en el espacio de Hilbert del núcleo reproductor de funciones (sobre conjuntos) inducido por la similitud de Jaccard (o mejor dicho, el núcleo). Hay una comprensión relativamente buena de tal método para el análisis de datos.
Los análisis lineales de componentes principales o de factores se basan en un modelo de regresión lineal y esto implica que las similitudes de entrada deben ser covarianzas , correlaciones , cosenos o suma de productos cruzados (todas estas similitudes se conocen como productos escalares ). Usted puede introduzca cualquier otro tipo de similitud, como la medida de Jaccard o la correlación de Kendall, pero sólo teniendo en cuenta que el análisis "pensará" que es un producto escalar, es decir, la correlación de Pearson habitual o el coseno, en este caso.
Cuando se aplica a las verdaderas correlaciones de Pearson u otro tipo de producto escalar, el PCA reduce la dimensionalidad con una distorsión mínima de la forma de la nube de datos en términos de suma de distancias euclidianas al cuadrado entre los puntos de datos. Con la medida de Jaccard o similar, no se puede decir que el PCA reduzca la dimensionalidad con la función objetivo mencionada.
En el ACP, intentamos explicar de forma "concisa" la variación de los datos POSIBLEMENTE CORRELADOS mediante componentes principales que son ortogonales entre sí. La variación de los datos se representa mediante la matriz de varianza-covarianza.
Por otro lado, un índice jaccard es un coeficiente de similitud. La similitud y la correlación son conceptos bastante diferentes. Según su descripción, si tomamos una matriz de índices de Jaccard, los vectores propios serán ortogonales entre sí, lo cual está bien, pero ¿podremos decir qué fracción de la variación se explica por un determinado $"Jaccard PC"$ ¿ por así decirlo? En el caso de un PC normal, podemos decir con seguridad qué fracción de la variación de los datos está representada por un PCA determinado, que no es más que la relación entre el valor propio correspondiente y la suma de todos los valores propios.
En resumen, los conceptos fundamentalmente diferentes del índice jaccard hacen que no sea sensato utilizarlo en PCA.