1 votos

Manipulación de características para el modelo de clasificación

Espero obtener algún consejo para tratar un modelo de clasificación.

Digamos que tengo tres etiquetas de resultado [bajo, medio, alto] y tres características [F1, F2, F3]. Para simplificar, digamos que las características son un recuento bruto dentro de un área fija. Un aumento de los valores nominales en cada característica puede predecir un resultado "alto" para un evento concreto.

La pregunta central es cuándo los factores pueden influir en las características. Digamos que el 5-10% de las veces el área fija no es adecuada. En concreto, toda la zona no está operativa, por lo que un recuento más bajo puede considerarse "alto" porque una parte más pequeña del espacio está activa.

Soy reacio a manipular las características cuando se producen estos casos. Pero si tuviera que considerar una característica separada, podría no influir en las reglas porque ocurre con poca frecuencia.

Si esto es confuso puedo añadir algún código ficticio.

1voto

Djib2011 Puntos 693

Creo que la mejor opción sería añadir una función separada que indica el porcentaje de la superficie total que es operativa. Si esto no está disponible, al menos añada un indicador (es decir, 0-1) que muestre si toda la zona está operativa o no.

De este modo, le das al modelo toda la información disponible. Internamente, el modelo puede manipular las características de la forma que considere oportuna, con el fin de lograr el mejor rendimiento.

Al manipular las características por su cuenta, esencialmente pondría sus propias suposiciones en los datos, que podrían no ser válidas en la práctica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X