5 votos

¿En elementos de aprendizaje estadístico habla de un "truco" para hacer frente a las variables categóricas para la clasificación binaria?

He luchado para lidiar con variables categóricas en Bosques Aleatorios, para la clasificación binaria. Entre las 8:15 y 9:30 en este video instructivo, se habla de un "truco".

Se dice que el truco puede ser encontrado en los Elementos de Aprendizaje Estadístico "truco" para lidiar con las variables categóricas para la clasificación binaria en Bosques Aleatorios. Pero, cuando me lea la sección sobre Bosques Aleatorios, me parece que no puede encontrar este "truco"!! Puede alguien pista en donde la sección de la derecha es, o me estoy perdiendo algo que es obvio? Gracias.

EDITAR:

He leído la sección 9.2.4: Otras Cuestiones - los Predictores Categóricos, gracias. Esta frase está claro para mí, sin embargo:

"Tenemos la orden del predictor clases de acuerdo a la proporción que la caída en el resultado de la clase 1."

¿La "proporción" significa:

la proporción de 1 en que clase a el número total de ejemplos en la región O la proporción de 1 en que clase a la cantidad de ejemplos en los que la clase?

el último podría ser lanzado por los datos asimétricos. Digamos que hay una clase con un ejemplo que pasa a ser un 1. Por la última definición de "proporción", esto significaría que esa clase sería clasificar en primer lugar porque la proporción es de 1. La definición de la proporción es correcta?

13voto

Jamie Dixon Puntos 23891

Se menciona en la Sección 9.2.4 bajo los Predictores Categóricos.

Aquí es un ejemplo básico de la "truco" y por qué es importante.

Supongamos que usted tiene una respuesta binaria $y$ con valores de $\{\text{Yes}, \text{No}\}$ y una variable categórica $x$ con niveles de $\{A, B, C, D, E\}$. Al dividir en $x$ a un nodo dado, usted tiene $15$ $(=2^{5-1}-1)$ posibles divisiones. En este escenario, se podría considerar todas las posibles divisiones y elegir la óptima caso el uso de un determinado impureza de medida (por ejemplo, la entropía, el índice de Gini). Sin embargo, para una variable categórica con muchos niveles, esta estrategia fallará.

En lugar de considerar todos los $15$ posible divisiones, vamos a reducir sólo a $4$ se divide (o menos si hay empates). Supongamos que la proporción de $\text{Yes}$ $0.8$ en la clase $A$, $0.7$ clase $B$, $0.7$ clase $C$, $0.2$ clase $D$, e $0.9$ clase $E$. Uno puede reordenar esta como $(0.2, 0.7, 0.7, 0.8, 0.9)$ y split $x$ suponiendo que los valores son continuas. Una vez que se determina la óptima caso, decir $\leq 0.75$, los valores son transformadas atrás, por lo que la división de la izquierda ha $x \in \{ B, C, D\}$ y la división de la derecha ha $x \in \{A, E\}$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X