Idéntico es decir, que producirá resultados idénticos para una clasificación de similitud entre un vector u y un conjunto de vectores V .
Tengo un modelo de espacio vectorial que tiene como parámetros la medida de distancia (distancia euclídea, similitud coseno) y la técnica de normalización (ninguna, l1, l2). Según tengo entendido, los resultados de los parámetros [coseno, ninguno] deberían ser idénticos o, al menos, muy similares a los de [euclídeo, l2], pero no lo son.
En realidad, es muy posible que el sistema siga teniendo fallos, ¿o tengo algún error crítico sobre los vectores?
edit: Olvidé mencionar que los vectores se basan en el recuento de palabras de los documentos de un corpus. Dado un documento de consulta (que también transformo en un vector de recuento de palabras), quiero encontrar el documento de mi corpus que sea más similar a él.
Calcular su distancia euclídea es una medida sencilla, pero en el tipo de tarea en el que trabajo, a menudo se prefiere la similitud coseno como indicador de similitud, porque los vectores que sólo difieren en longitud siguen considerándose iguales. El documento con la menor distancia/semejanza coseno se considera el más similar.
0 votos
Todo depende de lo que su "modelo de espacio vectorial" haga con estas distancias. Podrías ser más específico sobre lo que hace el modelo?
0 votos
Lo siento, a veces es difícil salir de mi propia cabeza. He añadido una especificación.
0 votos
Sigues sin describir ningún modelo. De hecho, la única pista que te queda sobre el "tipo de tarea (en la que) trabajas" es el pnl pero eso es tan amplio que no ayuda mucho. Lo que espero que puedas aportar, para que la gente pueda entender la pregunta y dar buenas respuestas, es información suficiente para poder averiguar exactamente cómo estás utilizando tu medida de distancia y cómo determina cuáles podrían ser los "resultados".
0 votos
stats.stackexchange.com/a/36158/3277 . Cualquier similitud angular aka de tipo sscp es convertible a su correspondiente distancia euclidiana.