5 votos

Utilización de la validación cruzada con datos obtenidos mediante muestreo

Estoy creando una máquina de soporte vectorial para muy desequilibrada de datos en el que la identificación de las instancias de la clase rara es de la mayor importancia. Puesto que los datos son tan desequilibrada, de entrenamiento y de prueba de un modelo con ningún tipo de muestreo los resultados en una forma extremadamente precisa modelo que funciona muy mal en términos de su tasa de verdaderos positivos.

Para asegurar que el modelo es capaz de distinguir adecuadamente entre el positivo y el negativo de clase I división de los datos en un entrenamiento y de prueba y realiza un muestreo de los raros de la clase dentro de los datos de entrenamiento. Esto me permite utilizar los datos de prueba para estimar el desempeño de la modelo, pero parece que no me deja, no pueden utilizar k-fold cross validation. Es el método que han utilizado un enfoque aceptable? Hay otra metodología que se recomienda?

4voto

VarLogRant Puntos 284

Sí, en el CV los resultados van a ser sesgada. Usted todavía puede utilizar para ajustar el modelo.

Otra opción es utilizar una clase de sistema de ponderación que da asimétrica de los valores de costo de los diferentes tipos de errores (véase la referencia más abajo). Este está disponible en algunos programas (por ejemplo, el R kernlab paquete).

Creo que este es un mejor enfoque, ya que permite marcar la función de costo para cumplir con su sensibilidad o la especificidad de las necesidades. Es otro parámetro de ajuste y usted no tiene que "perilla para encender" cuando muestreo.

Max

Veropoulos K, Campbell C, Cristianini N (1999). "El control de la Sensibilidad de Máquinas de Vectores Soporte." Actas de la Conferencia Internacional Conjunta sobre la Inteligencia Artificial, 1999, 55-60.

4voto

jpmuc Puntos 4817

Aquí hay una respuesta relacionada que podría ser de interés de este problema. (Lo siento por la auto-citación)

2voto

deejjaayy Puntos 101

Yo no uso SVM, pero en la Regresión Logística y ANN he logrado utilizar k-fold con replicado de datos de entrenamiento (corte de los pliegues, generar la formación adecuada\test de pares, generar réplicas de los menos representados sólo en la clase de los datos de entrenamiento), a veces con el ruido. Los sesgos se han eliminado en la selección de los puntos de corte.

Una muy elemental repaso a las técnicas disponibles para desequilibrio de datos si se encuentra en este documento. Mi técnica favorita hasta el momento (PCA más ruido de la inyección) se encuentra en este documento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X