1 votos

Clasificación cuando los datos de mi columna son cadenas

ID           CAUSABAS   CAUSAIA    MP
2740.0       C509       C509       2
2770.0       C64X       C64X       2
17029.0      C921       C921       1
5015.0       C910       C504       1
5018.0       C504       C539       2
5030.0       C349       C509       2

Esta es una breve mirada a mis datos. Los datos tienen más columnas. El CAUSABAS CAUSAIA Las columnas son etiquetas, pero es una cadena. ¿Qué tipo de técnicas en python puedo utilizar la cadena para las clasificaciones?

También lo he comprobado en fuentes online. ¿Puedo utilizar CountVectorizer y token_pattern=TOKENS_ALPHANUMERIC ¿para hacer frente a estos problemas?

2voto

Ryan Puntos 31

La clasificación puede entenderse como un modelo lineal.

$dep. variable = \beta * ind. variables + \epsilon$


La variable dependiente es una cadena

Cuando la variable dependiente es categórica se trata de una clasificación. Cuando la variable dependiente es numérica se trata de una regresión. Una cadena puede entenderse como factor/variable categórica no ordenada. Por lo tanto, puede utilizar algoritmos de clasificación como el logit multinomial. Si las cadenas son categorías ordenadas, debe utilizar un algoritmo de clasificación ordenada como logit ordenado.

Una de las variables independientes es una cadena

Incluya variables ficticias para cada categoría. Esto sólo funciona si tiene una pequeña cantidad de categorías. Tome una categoría, por ejemplo C509, como categoría base y añada una variable ficticia para cada una de las demás categorías (C64X, C921, C910, etc.).

Si tanto la variable dependiente como la independiente son una cadena, deberá hacer ambas cosas: convertir las variables independientes en variables ficticias y las dependientes en variables categóricas.

Para resumirlo todo

Convertir la cadena en un factor (código en python) y continuar como en otros procesos de clasificación.

Sugerencia adicional: multicolinealidad

En las primeras 3 de las 6 observaciones de su muestra CAUSABAS y CUSAIA son los mismos. Si las dos variables son iguales para muchas observaciones, podría tener problemas con multicolinealidad . La mayoría de los algoritmos de clasificación no funcionan correctamente si hay multicolinealidad. Se puede utilizar el VIF (Factor de Inflación de la Varianza) para comprobar la multicolinealidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X