Tengo dos conjuntos de datos, a y B. Ambos tienen un gran número de variables continuas. Creo que está relacionado con B. Pero no hay clases definidas en a o B. yo podría hacer un montón de pruebas de correlación para ver si alguna de las variables en Una están fuertemente correlacionadas con la B. Pero muchas variables en Un probable dependientes los unos de los otros, y lo mismo es cierto para la B. me podría llevar a cabo sin supervisión de aprendizaje en ambos a y B y tratar de asociar los racimos de cada uno. Pero debido a que los clusters para Un derivadas sin el conocimiento de la B, la a clusters pueden no ser tan relevante a B como podría ser. Aquí está mi pregunta. Hay un área de aprendizaje de máquina y/o estadísticas que se centra en este tipo de problema? Si es así, ¿dónde puedo mirar?
Respuesta
¿Demasiados anuncios?Puede que desee echar un vistazo a estos artículos:
y
Ambos dan gráfica del modelo de interpretaciones de la CCA, la forma como (ligeramente diferentes) modelos probabilísticos, y mostrar cómo estos se pueden resolver mediante el algoritmo EM.
Mientras que puede no coincidir exactamente con sus requisitos, parece que el problema puede ser formulado como un modelo gráfico de esta manera. Dependiendo de cómo el modelo resultante se ve, usted podría ser capaz de usar off-the-shelf métodos para resolverlo - ver, por ejemplo, esta lista de paquetes de software