Processing math: 100%

5 votos

Elección de una medida de similitud para cuantificar la similitud entre individuos en un conjunto de escalas de personalidad

Tengo un montón de usuarios. Cada usuario tiene una serie de atributos de personalidad, como el "nivel de fitness" o la "conciencia ecológica", valorados en una escala de 1 a 5. Quiero calcular lo similares que son dos usuarios, para poder mostrar a cada uno una lista ordenada de "usuarios más similares".

Este parece ser un problema clásico de IR, y he visto que se utilizan tres métricas diferentes, pero no se discute por qué elegir una en lugar de otra:

  • Aritmética simple. Las puntuaciones ya están normalizadas en la misma escala, así que puedo sumar las puntuaciones de cada usuario y comparar las sumas para ver quién es más parecido.

  • Similitud del coseno. Tratar cada usuario como un vector de n dimensiones, donde cada escala es una dimensión. Calcula el coseno del ángulo entre los vectores de dos usuarios; los cosenos más cercanos a 1 (ángulos más pequeños) son más similares.

  • Distancia euclidiana. Cada usuario es un vector n-dimensional de nuevo, pero esta vez, calcula la distancia entre los puntos finales. Los usuarios que están cerca son similares.

¿Cuáles son las ventajas y desventajas de cada método? ¿Cómo cambia esto si las puntuaciones no están normalizadas a la misma escala (es decir, si añado un atributo de "edad")?

1voto

Eric Davis Puntos 1542

Alinear la fórmula de similitud con la noción conceptual de similitud

  • Yo trataría de alinear la fórmula matemática utilizada para calcular la similitud con lo que intuitivamente o teóricamente se entiende por similitud. Algunas cuestiones conceptuales son:
    • ¿Se estandariza dentro de la persona y, por tanto, se centra en el perfil de las puntuaciones más que en las diferencias brutas?
    • ¿Quiere elevar al cuadrado las diferencias en los atributos individuales (en lugar de tomar las diferencias absolutas) y, por tanto, ponderar más unas pocas diferencias grandes que un gran número de diferencias pequeñas?
    • ¿Va a ponderar las diferencias en cada variable por igual o va a dejar que algunas cuenten más; y si algunas van a contar más, va a decidir cómo funciona esto o va a dejar que algo como la desviación estándar del atributo lo determine?

Inspeccionar las agrupaciones producidas por diferentes fórmulas de similitud

  • Es una buena idea inspeccionar las agrupaciones basadas en la similitud producidas por diferentes algoritmos. Ver si convergen o difieren. Inspeccione los desacuerdos y vea qué algoritmo parece ajustarse a su definición conceptual de similitud.

Un punto de partida

  • Creo que la distancia euclidiana o euclidiana al cuadrado basada en variables estandarizadas suele ser una buena opción (sería mi punto de partida para tu problema). Por supuesto, si todas las variables tienen una desviación estándar similar (como suele ser el caso cuando se comparan elementos likert), entonces el hecho de estandarizar o no probablemente no supondrá una gran diferencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X