Con respecto al aprendizaje no supervisado (como el clustering), ¿hay alguna métrica para evaluar el rendimiento?
Respuestas
¿Demasiados anuncios?En cierto sentido, creo que esta pregunta no tiene respuesta. Digo esto porque el rendimiento de un determinado método no supervisado dependerá en gran medida de la razón por la que se realiza el aprendizaje no supervisado en primer lugar, es decir, si el método funciona bien en el contexto de su objetivo final. Obviamente, esto no es completamente cierto, la gente trabaja en estos problemas y publica resultados que incluyen algún tipo de evaluación. A continuación, expondré algunos de los enfoques que conozco.
Un buen recurso (con referencias) para la agrupación es la página de documentación de sklearn, Evaluación del rendimiento de la agrupación . Esto cubre varios métodos, pero todos menos uno, el Coeficiente de Silueta, asume que las etiquetas de la verdad del terreno están disponibles. Este método también se menciona en la pregunta Medida de evaluación de la agrupación , enlazado en los comentarios de esta pregunta.
Si su método de aprendizaje no supervisado es probabilístico, otra opción es evaluar alguna medida de probabilidad (log-verosimilitud, perplejidad, etc.) sobre datos retenidos. La motivación aquí es que si su método de aprendizaje no supervisado asigna una alta probabilidad a datos similares que no se utilizaron para ajustar los parámetros, entonces probablemente ha hecho un buen trabajo para capturar la distribución de interés. Un ámbito en el que se suele utilizar este tipo de evaluación es el modelado del lenguaje.
La última opción que mencionaré es utilizar un aprendiz supervisado en una tarea auxiliar relacionada. Si su método no supervisado produce variables latentes, puede pensar en estas variables latentes como una representación de la entrada. Por lo tanto, es sensato utilizar estas variables latentes como entrada para un clasificador supervisado que realice alguna tarea relacionada con el dominio del que proceden los datos. El rendimiento del método supervisado puede entonces servir como sustituto del rendimiento del aprendiz no supervisado. Esta es esencialmente la configuración que se ve en la mayoría de los trabajos sobre el aprendizaje de representación.
Esta descripción es probablemente un poco nebulosa, así que daré un ejemplo concreto. Casi todos los trabajos sobre el aprendizaje de la representación de palabras utilizan el siguiente enfoque para la evaluación:
- Aprender representaciones de palabras utilizando un aprendiz no supervisado.
- Utilizar las representaciones aprendidas como entrada para un aprendiz supervisado que realice alguna tarea de PNL como el etiquetado de partes del discurso o el reconocimiento de entidades con nombre.
- Evaluar el rendimiento del aprendiz no supervisado por su capacidad de mejorar el rendimiento del aprendiz supervisado en comparación con una línea de base utilizando una representación estándar, como las características binarias de presencia de palabras, como entrada.
Para ver un ejemplo de este enfoque en acción, véase el documento Entrenamiento de máquinas de Boltzmann restringidas con observaciones de palabras por Dahl et al.
La respuesta más votada es muy útil, sólo quiero añadir algo aquí. Métricas de evaluación de los algoritmos de aprendizaje no supervisado de Palacio-Niño & Berzal (2019) ofrece una visión general de algunas métricas comunes para evaluar tareas de aprendizaje no supervisado. En el artículo se enumeran los métodos de validación interna y externa (sin etiquetas de verdad).
Espero que esto ayude.