Tengo un conjunto de datos n=175 y para 2 agrupaciones diferentes (A y B) tengo 5 y 6 grupos. La tabla de similitud de las agrupaciones está a continuación. Primero calculé el Índice de Rand tanto manualmente con Excel como con la función "cluster_similarity" en R y obtuve 63,4%. Luego calculé el Índice de Rand Ajustado tanto con Excel como con la función "adjustedRandIndex" en R. Obtuve 0,003, ni siquiera %3. ¿Por qué esta gran diferencia? Estoy muy confundido, estaba planeando usar el Índice de Rand para mi trabajo, pero tengo miedo de tener que usar el ajustado. Hay algunos ceros y unos en la tabla, tal vez esos sean el problema.
Respuesta
¿Demasiados anuncios?Siempre use el índice de Rand ajustado. No hay razón para usar la versión no ajustada.
Suponiendo que tiene un conjunto de datos de 100 objetos. 90 son de tipo A. 10 son de tipo B en el primer agrupamiento. Para el segundo agrupamiento, elija 90 objetos al azar y etiquételos como A, y los 10 restantes como B. Una matriz de confusión típica se verá así:
81 19
19 1
y tendrá un índice de Rand de alrededor de 0.95 - esto parece bastante bueno. Pero las etiquetas se asignaron al azar, ¡no debe ser bueno! El índice de Rand ajustado de esta solución debería ser cercano a 0.
Así que:
- Un alto índice de Rand puede deberse a la distribución de las etiquetas. ¡Un valor de 0.95 aún puede ser aleatorio!
- Los valores de Rand ajustados cerca de 0 sí indican resultados aleatorios; valores inferiores a 0 son incluso peores que adivinar.
- ¡Siempre prefiera el índice de Rand ajustado al índice de Rand regular!
En el ejemplo de tu pregunta, los agrupamientos son tan similares como las etiquetas aleatorias.