4 votos

¿Cuánto undersampling debería hacerse?

Mi objetivo es predecir trimestral del cliente-las probabilidades de incumplimiento: tengo los datos de ~ 2 millones de personas, que por defecto, en promedio, con una probabilidad de ~ 0.3 por ciento.

Por lo tanto estoy pensando en submuestreo, la mayoría de la clase (no-defaults) para ahorrar tiempo de cálculo (kernel métodos pueden ser muy costosas, que yo sé acerca de la corrección de la probabability predicciones); la otra opción, tomar una sub-muestra de los datos.

¿Cuál cree usted que sería una buena proporción de los valores predeterminados para los no-defaults en mi muestra de aprendizaje?

Gracias por su ayuda!

2voto

ESRogs Puntos 1381

En una primera aproximación, 1:1, es una buena proporción, pero:

  • Algunos métodos son más vulnerables a la desigualdad de clases, algunos son menos -- llanura de árbol de decisión casi siempre votar por una mucho más grande de la clase, 1-NN no será afectado en absoluto. Es una buena idea para comprobar esto (en la literatura, o preguntando aquí) en el contexto de su problema.
  • Usted debe tener cuidado de posibles inhomogeneidades (digamos oculto "subclases") -- submuestreo puede cambiar las proporciones entre las subclases y por lo tanto provocar efectos extraños. Para este fin, es bueno para intentar por lo menos unos submuestreo de realizaciones a tener un cambio para detectar posibles problemas. (Bueno, me llamó un problema, pero esto puede ser también una muy ilustrativo de la penetración en los datos)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X