4 votos

Hacer poco frecuentes ejemplos de tornillo hasta los clasificadores? Si es así, cuando es bien para quitar el poco frecuentes ejemplos a partir de los datos?

Es difícil pensar en una más elocuente forma de redactar esta pregunta - estoy básicamente preguntando si un clasificador entrenado en los datos de donde los ejemplos de algunas de las clases son poco frecuentes/raro sería un mal modelo? Estoy principalmente interesado en los árboles de decisión (C4.5).

Creo que la respuesta es no, pero de que obtendrá una alta error, porque se suele clasificar a los miembros de la poca frecuencia de las clases de instancias de la más frecuente de las clases. Esta ha sido mi experiencia hasta ahora.

También me pregunto cuando es bien para quitar estos ejemplos y cuando se considera mala práctica (es decir, de hacerlo solo para reducir el error). Supongo que está bien para quitar estos si hay una buena razón para hacerlo, y se les explica que el razonamiento cuando se informe de sus resultados.

No estoy realmente interesado en la construcción de la mejor clasificador, estoy más interesado en la comprensión de las relaciones entre las variables y la estructura de los datos. Pero todas mis variables son categóricas y no lineal de los datos, para la toma de árboles han sido hasta ahora la mejor herramienta que he encontrado para hacer esto. (SVMs y el conjunto de métodos que son más precisos, pero realmente no se puede ver el modelo interno de la estructura, que se obtiene con árboles de decisión.)

gracias.

7voto

jdelator Puntos 1336

Por "poco frecuentes", supongo que te refieres a que la clase de la etiqueta se produce con poca frecuencia, (es decir, los puntos a los que se ha asignado una clase de etiqueta ocurre con muy baja frecuencia en sus datos). Para ocultarlas de su clasificador, en esencia, elimina toda posibilidad de que su clasificador habría tenido que aprender a asignar a esa clase de etiqueta de puntos de datos en su conjunto de pruebas, pero si no te importa acerca de esa clase, entonces yo creo que tiene sentido para eliminar los datos asignados a ese irrelevante clase.

Pero lo que si se preocupan por la formación de sus clasificador para asignar datos a que clase? El ejemplo paradigmático es el fraude de predicción--los puntos de datos son por ejemplo, las transacciones y el clasificador entrenado para asignar una de las dos etiquetas de clase para cada transacción--"fraude" o "fraude". La representación de las dos clases en el entrenamiento y prueba de los datos es a menudo mucho menos de uno por ciento.

De hecho, más que la eliminación de estos datos con los de baja frecuencia de la clase de la etiqueta, es común dar a esta pequeña población de puntos de datos mucho más peso por lo que una mala clasificación de la pena es mayor para un "falso positivo" (por ejemplo, errores de clasificación de una transacción como "no de fraude').

Supongo que también se podría haber utilizado el término "poco frecuentes ejemplo" para referirse a un esquema. Ausente el conocimiento o la creencia razonable de que el valor es un artefacto, en lugar de una medición precisa, es de curso de mala forma a rechazar outliners sólo porque son valores atípicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X