Tengo un dato de millones de registros, y cada registro tiene una etiqueta la suma de todas las etiquetas en mis datos es 324521 etiqueta. No quiero hacer una clasificación, sólo quiero saber qué características contribuyen más a tener esta etiqueta. Me refiero a qué características son más indicadoras a la hora de decidir la etiqueta del registro; estas características son tanto categóricas como numéricas. ¿Cómo puedo hacer esto? ¿Alguna idea?
Respuesta
¿Demasiados anuncios?Sólo para aclarar, usted quiere ver qué características individualmente (no colectivamente) apuntan a la existencia de cada etiqueta, ¿verdad?
Lo que yo haría en este caso es codificar primero las etiquetas de una sola vez para obtener N columnas, cada una de las cuales significa la existencia de una etiqueta específica. A continuación, un criterio simple como Impureza de Gini o Ganancia de información (o, más propiamente, como KL-divergenge ) debería funcionar. Estos son los criterios que utilizan los árboles de decisión. Básicamente se quiere ver qué característica conduce a una mejor separación de los valores en cada una de las etiquetas.