Processing math: 100%

8 votos

¿Deberíamos equilibrar el conjunto de datos si los datos están intrínsecamente desequilibrados?

Supongamos que queremos predecir la tasa de cáncer(de regresión)/predecir si una persona tiene cáncer o no(clasificación). Los datos intrínsecamente tiene pocos pacientes con cáncer/baja tasa de cáncer, dicen 1/200. Y el conjunto de datos es buena y suficiente, dicen que más de 100.000.

Ahora la pregunta es: debo usar ciertos estrategia de muestreo para el balance de los datos antes de aplicar cualquier regresión/algoritmo de clasificación?

Desde mi punto de vista, la razón por la que necesitamos el balance de los datos es porque los datos que tenemos no sigue la distribución natural, es malo, como un 10/90 macho/hembra. Pero ahora, tenemos un buen de datos que sigue la distribución natural, debemos balance de los datos?

También me pregunto si las cosas son diferentes para la clasificación frente a la regresión. A pesar de la baja tasa de cáncer, ¿es correcto hacer la regresión sin muestreo?

Cualquier alto/nivel detallado ideas son de agradecer:)

0voto

Dominic.wig Puntos 204

Hay algunas respuestas muy buenas en este hilo.

¿Importa una muestra desequilibrada al hacer regresión logística?

Además, su configuración es una configuración clásica en la que tendría un alto costo si dijera que alguien no tiene cáncer, pero en realidad sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X