Elección de una medida de similitud para cuantificar la similitud entre individuos en un conjunto de escalas de personalidad

Question

Elección de una medida de similitud para cuantificar la similitud entre individuos en un conjunto de escalas de personalidad

Preguntado el 2 de Agosto, 2011: Cuando se hizo la pregunta
538 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo un montón de usuarios. Cada usuario tiene una serie de atributos de personalidad, como el "nivel de fitness" o la "conciencia ecológica", valorados en una escala de 1 a 5. Quiero calcular lo similares que son dos usuarios, para poder mostrar a cada uno una lista ordenada de "usuarios más similares".

Este parece ser un problema clásico de IR, y he visto que se utilizan tres métricas diferentes, pero no se discute por qué elegir una en lugar de otra:

Aritmética simple. Las puntuaciones ya están normalizadas en la misma escala, así que puedo sumar las puntuaciones de cada usuario y comparar las sumas para ver quién es más parecido.
Similitud del coseno. Tratar cada usuario como un vector de n dimensiones, donde cada escala es una dimensión. Calcula el coseno del ángulo entre los vectores de dos usuarios; los cosenos más cercanos a 1 (ángulos más pequeños) son más similares.
Distancia euclidiana. Cada usuario es un vector n-dimensional de nuevo, pero esta vez, calcula la distancia entre los puntos finales. Los usuarios que están cerca son similares.

¿Cuáles son las ventajas y desventajas de cada método? ¿Cómo cambia esto si las puntuaciones no están normalizadas a la misma escala (es decir, si añado un atributo de "edad")?

Preguntado el 2 de Agosto, 2011 por jessegavin

Answer 1

1 Respuestas

Answer 2

1voto

Eric Davis Puntos 1542

Alinear la fórmula de similitud con la noción conceptual de similitud

Yo trataría de alinear la fórmula matemática utilizada para calcular la similitud con lo que intuitivamente o teóricamente se entiende por similitud. Algunas cuestiones conceptuales son:
- ¿Se estandariza dentro de la persona y, por tanto, se centra en el perfil de las puntuaciones más que en las diferencias brutas?
- ¿Quiere elevar al cuadrado las diferencias en los atributos individuales (en lugar de tomar las diferencias absolutas) y, por tanto, ponderar más unas pocas diferencias grandes que un gran número de diferencias pequeñas?
- ¿Va a ponderar las diferencias en cada variable por igual o va a dejar que algunas cuenten más; y si algunas van a contar más, va a decidir cómo funciona esto o va a dejar que algo como la desviación estándar del atributo lo determine?

Inspeccionar las agrupaciones producidas por diferentes fórmulas de similitud

Es una buena idea inspeccionar las agrupaciones basadas en la similitud producidas por diferentes algoritmos. Ver si convergen o difieren. Inspeccione los desacuerdos y vea qué algoritmo parece ajustarse a su definición conceptual de similitud.

Un punto de partida

Creo que la distancia euclidiana o euclidiana al cuadrado basada en variables estandarizadas suele ser una buena opción (sería mi punto de partida para tu problema). Por supuesto, si todas las variables tienen una desviación estándar similar (como suele ser el caso cuando se comparan elementos likert), entonces el hecho de estandarizar o no probablemente no supondrá una gran diferencia.

Respondido el 3 de Agosto, 2011 por Eric Davis (1542 Puntos )

Elección de una medida de similitud para cuantificar la similitud entre individuos en un conjunto de escalas de personalidad

Respuesta

Alinear la fórmula de similitud con la noción conceptual de similitud

Inspeccionar las agrupaciones producidas por diferentes fórmulas de similitud

Un punto de partida

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Elección de una medida de similitud para cuantificar la similitud entre individuos en un conjunto de escalas de personalidad

Respuesta

Alinear la fórmula de similitud con la noción conceptual de similitud

Inspeccionar las agrupaciones producidas por diferentes fórmulas de similitud

Un punto de partida

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: