6 votos

¿Cómo se utilizan las variables categóricas al ajustar un árbol de decisión en scikit-learn?

Estoy acostumbrado a R, en el que se puede utilizar factor(variable) para indicar una variable categórica. Sin embargo, en scikit-learn, intentar pasar una variable de cadenas hace que el DecisionTreeClassifier dé un error.

¿Cómo se supone que se utiliza una variable categórica en scikit-learn? ¿La única opción para codificar una variable multiclase es utilizar variables ficticias?

3voto

On Freund Puntos 3479

Para codificar una característica categórica como una matriz scipy.sparse se puede utilizar la función DictVectorizer clase. A continuación, llame a la .toarray() en el resultado para convertirlo en un array numpy contiguo, ya que los árboles de scikit-learn no soportan todavía la entrada dispersa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X