Quiero aprender (deducir) los pesos de los atributos para mi medida de disimilitud que puedo utilizar para la agrupación.
Tengo algunos ejemplos $(a_i,b_i)$ de pares de objetos que son "similares" (deben estar en el mismo clúster), así como algunos ejemplos $(c_i,d_i)$ de pares de objetos que "no son similares" (no deben estar en el mismo clúster). Cada objeto tiene una serie de atributos: si se quiere, podemos pensar en cada objeto como un $d$ -vector de características, donde cada característica es un número entero no negativo. ¿Existen técnicas para utilizar estos ejemplos de objetos similares/disimilares para estimar a partir de ellos las ponderaciones óptimas de las características para una medida de disimilitud?
Si sirve de ayuda, en mi aplicación, probablemente sería razonable centrarse en el aprendizaje de una medida de disimilitud que sea una norma L2 ponderada:
$$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$$
donde los pesos $\alpha_j$ no se conocen y deben aprenderse. (O también podría ser razonable algún tipo de medida de similitud del coseno ponderado). ¿Existen buenos algoritmos para aprender los pesos $\alpha_j$ para una medida de este tipo, teniendo en cuenta los ejemplos? ¿O hay otros métodos para aprender una medida de similitud / disimilitud que debería considerar?
El número de dimensiones es, por desgracia, muy grande (miles o más; se deriva de las características de la bolsa de palabras). Sin embargo, tengo muchas decenas de miles de ejemplos. Luego tengo cientos de miles de objetos que quiero agrupar, así que es importante generalizar a partir de los ejemplos para aprender una buena métrica de disimilitud.
Deduzco que esto entra dentro de la rúbrica de la agrupación semisupervisada, y parece que podría ser del tipo "adaptación por similitud", pero no he podido encontrar descripciones claras de los algoritmos que se utilizan para este fin.