Supongamos que quiere agrupar algunos objetos, por ejemplo, documentos, frases o imágenes.
Desde el punto de vista técnico, primero se representan estos objetos de alguna manera para poder calcular la distancia entre ellos, y luego se alimentan esas representaciones a algún algoritmo de agrupación.
Sin embargo, externamente, sólo se quiere agrupar a los similares (en algo de sentido -- y ahí es donde las cosas se vuelven bastante vagas para mí) objetos juntos. Por ejemplo, en el caso de las frases, queremos que los grupos contengan frases sobre un tema/concepto similar; creemos que las frases "oh, mira esta foto de un lindo lolcat" y "facebook reveló una nueva característica brillante esta noche" deberían estar en grupos diferentes.
¿Cuáles son los enfoques habituales para medir esta calidad "externa" de la agrupación? Es decir, queremos medir lo bien que nuestro procedimiento de clustering agrupa los objetos iniciales (frases, imágenes); no estamos interesados en las medidas internas (como el radio promedio de los clusters, la dispersión de los clusters), ya que esas medidas se refieren a las representaciones de los objetos, no a los objetos reales. Es decir, la representación elegida puede ser horrible, e incluso si las medidas internas son geniales, externamente terminaremos con clusters que son una completa basura desde nuestro punto de vista vago, subjetivo y de "algún sentido".
P.D. Al tener un conocimiento limitado en el campo de la agrupación, sospecho que puedo estar preguntando sobre algo realmente obvio, o mi terminología puede sonar extraña para los expertos en agrupación. Si es así, por favor, aconsejen qué debería leer sobre el tema.
P.P.D. Por si acaso, he hecho la misma pregunta en Quora: http://www.quora.com/How-to-evaluate-external-quality-of-clustering