7 votos

¿Cómo evaluar la calidad "externa" de la agrupación?

Supongamos que quiere agrupar algunos objetos, por ejemplo, documentos, frases o imágenes.

Desde el punto de vista técnico, primero se representan estos objetos de alguna manera para poder calcular la distancia entre ellos, y luego se alimentan esas representaciones a algún algoritmo de agrupación.

Sin embargo, externamente, sólo se quiere agrupar a los similares (en algo de sentido -- y ahí es donde las cosas se vuelven bastante vagas para mí) objetos juntos. Por ejemplo, en el caso de las frases, queremos que los grupos contengan frases sobre un tema/concepto similar; creemos que las frases "oh, mira esta foto de un lindo lolcat" y "facebook reveló una nueva característica brillante esta noche" deberían estar en grupos diferentes.

¿Cuáles son los enfoques habituales para medir esta calidad "externa" de la agrupación? Es decir, queremos medir lo bien que nuestro procedimiento de clustering agrupa los objetos iniciales (frases, imágenes); no estamos interesados en las medidas internas (como el radio promedio de los clusters, la dispersión de los clusters), ya que esas medidas se refieren a las representaciones de los objetos, no a los objetos reales. Es decir, la representación elegida puede ser horrible, e incluso si las medidas internas son geniales, externamente terminaremos con clusters que son una completa basura desde nuestro punto de vista vago, subjetivo y de "algún sentido".

P.D. Al tener un conocimiento limitado en el campo de la agrupación, sospecho que puedo estar preguntando sobre algo realmente obvio, o mi terminología puede sonar extraña para los expertos en agrupación. Si es así, por favor, aconsejen qué debería leer sobre el tema.

P.P.D. Por si acaso, he hecho la misma pregunta en Quora: http://www.quora.com/How-to-evaluate-external-quality-of-clustering

2voto

user2121 Puntos 179

No entiendo perfectamente lo que quiere decir con calidad interna y externa. Supongo que interna se refiere a una medida calculada sobre la partición obtenida mientras que externa es el resultado que te gustaría obtener.

Por lo general, la medida interna tiene como objetivo comparar la distancia dentro del clúster en comparación con la distancia entre el clúster. Intuitivamente, si los clusters son densos y están bien separados, entonces usted tiene una buena agrupación. Como éste es el objetivo de la agrupación, no se puede hacer nada mejor, a menos que se pida a la gente que mire las particiones y diga si son buenas o no.

Si la agrupación resultante no le parece buena, es probable que, o bien sus puntos no estén correctamente colocados, o bien su distancia no esté adaptada a su problema. Por ejemplo, suponga que los clusters que espera forman un largo rectángulo paralelo en su representación. Si utiliza una distancia euclidiana, no podrá encontrar la partición esperada.

Para resolver este problema, si en la partición resultante, usted encuentra que hay puntos en el mismo cluster que no deberían estar juntos, entonces pregúntese por qué la distancia elegida los consideró como cercanos. Entonces, simplemente construya (o lea sobre) una nueva función de distancia que evite este problema.

En resumen, si usted encuentra que la partición calculada no tiene sentido, no es necesariamente porque su medida de calidad sea incorrecta, sino más bien porque la agrupación realizó la tarea equivocada. Encontrar una buena representación de la distancia y el espacio es probablemente la tarea principal cuando se hace clustering.

2voto

gauss Puntos 110

Según lo que entiendo de su pregunta...

Parece que está agrupando en base a un conjunto de características, pero luego quiere que las agrupaciones reflejen idealmente otras características en las que no se basó su agrupación. La forma de arreglar esto es pensar en todo antes de estimar cualquier modelo, y asegurarse de que sus características "internas" coinciden con las "externas". En otras palabras, si quieres que las frases se agrupen en función del tema, entonces el quid está en encontrar la métrica de distancia (o lo que sea) que lo refleje. EDIT: Esto es también básicamente lo que dice Mougel.

Dicho esto, quizá no tengas ninguna idea de cómo hacerlo al principio y quieras experimentar un poco. El problema con la agrupación es que las etiquetas de clase son desconocidas... pero por tu ejemplo parece que una persona podría mirar los resultados individuales y decidir si está contenta con la agrupación. Así que podría agrupar, luego tomar una muestra aleatoria manejable de la salida y ver qué tan bien lo hizo por sí mismo. A partir de esto, se podrían asignar etiquetas de clase al principio y convertir esto en un problema de clasificación.

En resumen: No conozco un enfoque "estadístico" o automatizado para esto; parece un problema que se resolverá con más aportaciones de los usuarios y más reflexión.

2voto

Loren Pechtel Puntos 2212

Para resolver un problema real se necesita una combinación de técnica y conocimiento del dominio. Estás preguntando por la técnica, y estás recibiendo buenas respuestas en ese sentido. Pero no puedes tener éxito sin un conocimiento definido del dominio. Tu principal tarea es obtener, enfocar, destilar, etc., ese conocimiento del dominio. Entonces podrás aplicar correctamente una técnica.

Así que tienes que ayudar ellos (quienquiera que sea que esté agitando los brazos y gritando "¡No es bueno, no es bueno!" sobre tus racimos) céntrate. Si estás agrupando fotos, haz o solicita 20 ejemplos específicos de buenos clusters (de digamos 5 fotos cada uno), y 20 ejemplos específicos de malos clusters. Luego puedes seguir los consejos de las otras respuestas en este hilo y tratar de alinear tu distancia de clustering con las respuestas.*

Esta es la parte de la estadística que los libros y las clases realmente no cubren. Es la cara de la moneda de los consultores. Pero no veo la forma de tener éxito sin hacerlo. (Incluso si el ellos es usted).

También hay técnicas semisupervisadas que utilizan algunos datos etiquetados y la mayoría sin etiquetar, pero como primer paso puedes explorar tus datos con las etiquetas que puedas obtener y luego averiguar qué métrica funciona mejor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X