33 votos

¿Clasificación o agrupación supervisada?

La segunda pregunta es que he encontrado en una discusión en algún lugar de la web que se habla de "clustering supervisado", hasta donde yo sé, el clustering es no supervisado, así que ¿cuál es el significado exacto de "clustering supervisado"? ¿Cuál es la diferencia con respecto a la "clasificación"?

Hay muchos enlaces que hablan de ello:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

etc...

23voto

dan gibson Puntos 1580

No creo que sepa más que tú, pero los enlaces que has puesto sugieren respuestas. Me quedo con http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf como ejemplo. Básicamente afirman: 1) la agrupación depende de una distancia. 2) el uso exitoso de k-means requiere una distancia cuidadosamente elegida. 3) Dados los datos de entrenamiento en forma de conjuntos de elementos con su partición deseada, proporcionamos un método SVM estructural que aprende una medida de distancia para que k-means produzca las agrupaciones deseadas. En este caso hay una etapa supervisada de clustering, con datos de entrenamiento y aprendizaje. El propósito de esta etapa es aprender una función de distancia para que la aplicación del clustering de k-means con esta distancia sea, con suerte, óptima, dependiendo de lo bien que se parezcan los datos de entrenamiento al dominio de la aplicación. Todas las advertencias habituales apropiadas para el aprendizaje automático y la agrupación siguen siendo válidas.

Citando además el artículo: La agrupación supervisada es la tarea de adaptar automáticamente un algoritmo de agrupación con la ayuda de un conjunto de entrenamiento formado por conjuntos de elementos y particiones completas de estos conjuntos de elementos. . Parece una definición razonable.

6voto

DarenW Puntos 161

Algunas definiciones:

Agrupación supervisada se aplica a los ejemplos clasificados con el objetivo de identificar los clusters que tienen una alta densidad de probabilidad para una sola clase.

Agrupación no supervisada es un marco de aprendizaje que utiliza unas funciones de objeto específicas, por ejemplo una función que minimiza las distancias dentro de un cluster para mantener el cluster apretado.

Clustering semisupervisado es mejorar un algoritmo de clustering utilizando información lateral en el proceso de clustering.

Avances en redes neuronales -- ISNN 2010

Sin utilizar demasiada jerga ya que soy un novato en este tema, la forma en que entiendo la agrupación supervisada es más o menos así:

En la agrupación supervisada se parte del Top-Down con algunas clases predefinidas y luego usando un Bottom-Up enfoque que encuentre que objetos encajar mejor en sus clases.

Por ejemplo, usted ha realizado un estudio sobre el tipo de naranjas favorito de una población.
De entre los muchos tipos de naranjas, has descubierto que un "tipo" concreto de naranjas es el preferido.
Sin embargo, ese tipo de naranja es muy delicada y lábil a las infecciones, al cambio climático y a otros agentes ambientales.
Así que quieres cruzarlo con otra especie que sea muy resistente a esos insultos.
Entonces se va al laboratorio y se encuentran algunos genes que son responsables del sabor jugoso y dulce de un tipo, y de la capacidad de resistencia del otro.
Realizas varios experimentos y terminas con, digamos, cien subtipos diferentes de naranjas.
Ahora sólo le interesan los subtipos que se ajustan perfectamente a las propiedades descritas.
No querrá volver a realizar el mismo estudio en su población...
Sabes las propiedades que buscas en tu naranja perfecta.
Así que ejecuta su análisis de conglomerados y selecciona los que mejor se ajustan a sus expectativas.

5voto

Heath Puntos 1042

Mi entendimiento ingenuo es que la clasificación se realiza cuando se tiene un conjunto específico de clases y se quiere clasificar un nuevo cosa/conjunto de datos en una de esas clases especificadas.

Alternativamente, la agrupación no tiene nada para empezar y utiliza todos los datos (incluidos los nuevos) para separar en clusters.

Ambos utilizan métrica de la distancia para decidir cómo agrupar/clasificar. La diferencia es que la clasificación se basa en un conjunto de clases previamente definidas, mientras que el clustering decide los clusters basándose en la totalidad de los datos.

Una vez más, mi entendimiento ingenuo es que la agrupación supervisada sigue agrupando basándose en la totalidad de los datos y, por tanto, sería una agrupación más que una clasificación.

En realidad, estoy seguro de que la teoría en la que se basan tanto la agrupación como la clasificación están interrelacionadas.

0voto

CipherCom Puntos 383

Mi interpretación tiene que ver con el número de muestras de entrenamiento que tiene por clase.

Si tienes muchas muestras de entrenamiento por clase, entonces puedes entrenar razonablemente un clasificador y tienes un caso de uso de clasificación.

Si sólo tienes muestras de entrenamiento para una fracción de las clases, un clasificador tendría un rendimiento pobre, pero un clusterer podría ser útil. Puedes optimizar este clusterer con las etiquetas que tienes (optimizar la distancia, las características, etc...) y es de esperar que esta optimización sea útil en datos no etiquetados. Usted tiene un caso de uso de clustering (semi) supervisado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X