Estoy tratando de averiguar cómo calcular el Índice Rand de un algoritmo de cluster, pero estoy atascado en el punto de cómo calcular los verdaderos y falsos negativos.
De momento estoy utilizando el ejemplo del libro An Introduction into Information Retrieval (Manning, Raghavan & Schütze, 2009). En la página 359 hablan de cómo calcular el índice de Rand. Para este ejemplo utilizan tres clusters y los clusters contienen los siguientes objetos.
- a a a a a b
- a b b b b c
- a a c c c
Sustituyo el objeto (signos originales por letras, pero la idea y el recuento siguen siendo los mismos). Doy las palabras exactas del libro para ver de qué hablan:
Primero calculamos TP +FP. Los tres clusters contienen 6, 6 y 5 puntos, respectivamente, por lo que el número total de "positivos" o pares de documentos que se encuentran en el mismo cluster es:
TP + FP = ${6 \choose 2}$ + ${6 \choose 2}$ + ${5 \choose 2}$ = 15 + 15+ 10 = 40
De ellos, los pares a en el clúster 1, los pares b en el clúster 2, los pares c en el clúster 3, y el par a del grupo 3 son verdaderos positivos:
TP = ${5 \choose 2}$ + ${4 \choose 2}$ + ${3 \choose 2}$ + ${2 \choose 2}$ = 10 + 6 + 3 + 1 = 20
Por tanto, FP = 40 20 = 20.
Hasta aquí los cálculos son claros, y si tomo otros ejemplos obtengo los mismos resultados, pero cuando quiero calcular el falso negativo y el verdadero negativo Manning et al. afirman lo siguiente:
FN y TN se calculan de forma similar, lo que da como resultado la siguiente tabla de contingencia:
La tabla de contingencia tiene el siguiente aspecto:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
La sentencia: "FN y TN se calculan de forma similar" no me queda clara y no entiendo qué números necesito para calcular el TN y el FN. Puedo calcular el lado derecho de la tabla haciendo lo siguiente:
TP + FP + FN + TN = ${n \choose 2}$ = ${17 \choose 2}$ = 136
Fuente: http://en.wikipedia.org/wiki/Rand_index
Por lo tanto, FN + TN = 136 - TP + FP = 136 - 40 = 96, pero esto no me ayuda a calcular las variables por separado. Sobre todo cuando los autores dicen "FN y TN se calculan de forma similar". No veo cómo. Además, cuando miro otros ejemplos, calculan cada celda de la tabla de contingencia mirando cada par.
Por ejemplo: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Mi primera pregunta, basada en el ejemplo de Manning et al (2009), ¿es posible calcular el TN y el FN si sólo se conocen el TP y el NP? Y si es así, ¿cómo es el cálculo similar basado en el ejemplo dado?