Estoy leyendo https://arxiv.org/pdf/1609.06676.pdf que presenta una extensión del algoritmo del bosque de aislamiento para que características categóricas se puede tener en cuenta. En la página 5, los autores señalan:
... ampliamos el algoritmo para considerar datos categóricos. Nuestro método sólo requiere que, para cada dimensión categórica, los valores tengan un ordenación. El ordenamiento puede ser arbitrario. A continuación, cada valor se asigna a un valor numérico, basado en su ordenación. Por ejemplo, los valores verdadero y falso pueden asignarse a falso = 0, verdadero = 1. Una vez asignados los valores categóricos a valores numéricos, las dimensiones categóricas pueden pueden ser tratadas de la misma manera que las dimensiones numéricas en el algoritmo iForest .
¿Tiene sentido este enfoque?
Al principio pensé que esto no produce exactamente el mismo resultado que la aplicación de Scikit-Learn LabelEncoder ()? Sin embargo, los autores parecen hacerlo sin crear un conjunto único antes de ordenar. Una forma diferente sería Una codificación en caliente aunque esto hace que el espacio de características se amplíe muy rápidamente para las características categóricas de alto cardinal.