9 votos

Cómo encontrar pesos para una medida de disimilitud

Quiero aprender (deducir) los pesos de los atributos para mi medida de disimilitud que puedo utilizar para la agrupación.

Tengo algunos ejemplos $(a_i,b_i)$ de pares de objetos que son "similares" (deben estar en el mismo clúster), así como algunos ejemplos $(c_i,d_i)$ de pares de objetos que "no son similares" (no deben estar en el mismo clúster). Cada objeto tiene una serie de atributos: si se quiere, podemos pensar en cada objeto como un $d$ -vector de características, donde cada característica es un número entero no negativo. ¿Existen técnicas para utilizar estos ejemplos de objetos similares/disimilares para estimar a partir de ellos las ponderaciones óptimas de las características para una medida de disimilitud?

Si sirve de ayuda, en mi aplicación, probablemente sería razonable centrarse en el aprendizaje de una medida de disimilitud que sea una norma L2 ponderada:

$$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$$

donde los pesos $\alpha_j$ no se conocen y deben aprenderse. (O también podría ser razonable algún tipo de medida de similitud del coseno ponderado). ¿Existen buenos algoritmos para aprender los pesos $\alpha_j$ para una medida de este tipo, teniendo en cuenta los ejemplos? ¿O hay otros métodos para aprender una medida de similitud / disimilitud que debería considerar?

El número de dimensiones es, por desgracia, muy grande (miles o más; se deriva de las características de la bolsa de palabras). Sin embargo, tengo muchas decenas de miles de ejemplos. Luego tengo cientos de miles de objetos que quiero agrupar, así que es importante generalizar a partir de los ejemplos para aprender una buena métrica de disimilitud.

Deduzco que esto entra dentro de la rúbrica de la agrupación semisupervisada, y parece que podría ser del tipo "adaptación por similitud", pero no he podido encontrar descripciones claras de los algoritmos que se utilizan para este fin.

6voto

Bou Puntos 1859

Este es un gran problema en algunas áreas del aprendizaje automático. No estoy tan familiarizado con ello como me gustaría, pero creo que esto debería servir para empezar.

Dado que sus datos son de tan alta dimensión (y probablemente escasos), es posible que no necesite nada demasiado no lineal. ¿Quizás el análisis de componentes de vecindad sea el mejor lugar para empezar? Es lo más parecido a la idea de un $L_2$ norma, como sugiere en su pregunta.

1voto

Amadiere Puntos 5606

Poner un $a_i$ peso en una característica en su medida de similitud es equivalente así escalar su conjunto de datos por $1/w_i$ .

En otras palabras, estás preguntando por el preprocesamiento y el escalado de los datos. Esto es demasiado amplio para que se pueda responder bien en una sola pregunta. Busque:

  • selección de características
  • ponderación de características
  • normalización
  • reducción de la dimensionalidad
  • otras técnicas de proyección
  • otras funciones de distancia
  • "aprender a clasificar"

Hay una gran cantidad de literatura e incluso pistas de conferencias dedicadas a esto. Algunos métodos para empezar:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X