Cómo encontrar pesos para una medida de disimilitud

Question

Cómo encontrar pesos para una medida de disimilitud

Preguntado el 25 de Abril, 2015: Cuando se hizo la pregunta
759 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Quiero aprender (deducir) los pesos de los atributos para mi medida de disimilitud que puedo utilizar para la agrupación.

Tengo algunos ejemplos $(a_i,b_i)$ de pares de objetos que son "similares" (deben estar en el mismo clúster), así como algunos ejemplos $(c_i,d_i)$ de pares de objetos que "no son similares" (no deben estar en el mismo clúster). Cada objeto tiene una serie de atributos: si se quiere, podemos pensar en cada objeto como un $d$ -vector de características, donde cada característica es un número entero no negativo. ¿Existen técnicas para utilizar estos ejemplos de objetos similares/disimilares para estimar a partir de ellos las ponderaciones óptimas de las características para una medida de disimilitud?

Si sirve de ayuda, en mi aplicación, probablemente sería razonable centrarse en el aprendizaje de una medida de disimilitud que sea una norma L2 ponderada:

$$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$$

donde los pesos $\alpha_j$ no se conocen y deben aprenderse. (O también podría ser razonable algún tipo de medida de similitud del coseno ponderado). ¿Existen buenos algoritmos para aprender los pesos $\alpha_j$ para una medida de este tipo, teniendo en cuenta los ejemplos? ¿O hay otros métodos para aprender una medida de similitud / disimilitud que debería considerar?

El número de dimensiones es, por desgracia, muy grande (miles o más; se deriva de las características de la bolsa de palabras). Sin embargo, tengo muchas decenas de miles de ejemplos. Luego tengo cientos de miles de objetos que quiero agrupar, así que es importante generalizar a partir de los ejemplos para aprender una buena métrica de disimilitud.

Deduzco que esto entra dentro de la rúbrica de la agrupación semisupervisada, y parece que podría ser del tipo "adaptación por similitud", pero no he podido encontrar descripciones claras de los algoritmos que se utilizan para este fin.

Preguntado el 25 de Abril, 2015 por UK Visa Works

Answer 1

2 Respuestas

Answer 2

6voto

Bou Puntos 1859

Este es un gran problema en algunas áreas del aprendizaje automático. No estoy tan familiarizado con ello como me gustaría, pero creo que esto debería servir para empezar.

Reducción de la dimensionalidad mediante el aprendizaje de un mapa invariante (DrLIM) parece funcionar muy bien en algunos conjuntos de datos.
Análisis de los componentes del barrio es un algoritmo lineal muy bueno, y también se han desarrollado versiones no lineales.
Hay toda una literatura que trata este tema desde la perspectiva del "aprendizaje de un núcleo". No sé mucho al respecto, pero este documento es muy citada.

Dado que sus datos son de tan alta dimensión (y probablemente escasos), es posible que no necesite nada demasiado no lineal. ¿Quizás el análisis de componentes de vecindad sea el mejor lugar para empezar? Es lo más parecido a la idea de un $L_2$ norma, como sugiere en su pregunta.

Respondido el 25 de Abril, 2015 por Bou (1859 Puntos )

Answer 3

1voto

Amadiere Puntos 5606

Poner un $a_i$ peso en una característica en su medida de similitud es equivalente así escalar su conjunto de datos por $1/w_i$ .

En otras palabras, estás preguntando por el preprocesamiento y el escalado de los datos. Esto es demasiado amplio para que se pueda responder bien en una sola pregunta. Busque:

selección de características
ponderación de características
normalización
reducción de la dimensionalidad
otras técnicas de proyección
otras funciones de distancia
"aprender a clasificar"

Hay una gran cantidad de literatura e incluso pistas de conferencias dedicadas a esto. Algunos métodos para empezar:

Respondido el 25 de Abril, 2015 por Amadiere (5606 Puntos )

Cómo encontrar pesos para una medida de disimilitud

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Cómo encontrar pesos para una medida de disimilitud

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: