Supongamos que queremos predecir la tasa de cáncer(de regresión)/predecir si una persona tiene cáncer o no(clasificación). Los datos intrínsecamente tiene pocos pacientes con cáncer/baja tasa de cáncer, dicen 1/200. Y el conjunto de datos es buena y suficiente, dicen que más de 100.000.
Ahora la pregunta es: debo usar ciertos estrategia de muestreo para el balance de los datos antes de aplicar cualquier regresión/algoritmo de clasificación?
Desde mi punto de vista, la razón por la que necesitamos el balance de los datos es porque los datos que tenemos no sigue la distribución natural, es malo, como un 10/90 macho/hembra. Pero ahora, tenemos un buen de datos que sigue la distribución natural, debemos balance de los datos?
También me pregunto si las cosas son diferentes para la clasificación frente a la regresión. A pesar de la baja tasa de cáncer, ¿es correcto hacer la regresión sin muestreo?
Cualquier alto/nivel detallado ideas son de agradecer:)