Tengo datos con este aspecto:
amount creator accounts
100 john cash, accounts payable
325 jane accounts receivable, cash
200 john tax account, accounts payable, cash
¿Cómo deben agruparse estos puntos de datos?
Pensamientos hasta ahora:
-
Popularmente, la respuesta consensuada parece ser codificar de una sola vez los campos categórico y multivalor_categórico, y luego escalar el campo numérico a [0,1]. Esto causa dos problemas principales: datos extremadamente dispersos/altamente dimensionales (4.000 dimensiones en mi caso), y una columna numérica que quizá no esté ponderada adecuadamente.
-
Intentar aplicar algoritmos diferentes a cada tipo de datos y mezclarlos de alguna manera. Podría tratarse de un análisis de tipo cesta de mercado para los datos categóricos multivalor, k-modes para los categóricos y k-means para los numéricos (o k-prototipos para los categóricos y numéricos).
¿Existe algún método/implementación que permita agrupar estos tres tipos de datos sin codificar en un solo paso los categóricos y los categóricos multivalor? He investigado SOM como una NN no supervisada que realiza clustering, pero no he visto evidencia de que pueda manejar categóricos multivalor.