Ching, no tienes que hacer que tu conjunto de datos esté equilibrado en términos de 1's y 0's. Todo lo que necesitas es un número suficiente de 1's para que la máxima probabilidad converja. Si observas la distribución de los 1 (100.000) en tu conjunto de datos, no deberías tener ningún problema. Puedes hacer un sencillo experimento aquí
- Muestrear el 10% de los 1 y el 10% de los 0 y utilizar un peso de 10 para ambos
- Muestrear el 100% de los 1's y el 10% de los 0's y utilizar un peso de 10 para los 0's
En ambos casos, obtendrá presupuestos idénticos. De nuevo, la idea de la ponderación está relacionada con el muestreo. Si se utiliza todo el conjunto de datos, no hay que ponderarlo. En su lugar, utilizaría un 10% de los 1 y un 10% de los 0.
En R, se utilizaría glm
. Aquí hay un código de ejemplo:
glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))
En su conjunto de datos debería haber una variable wt
para los pesos.
Si utiliza el 10% de los 0 y los 1, su wt
tendrá un valor de 10.
Si utilizas el 10% de los 0 y el 100% de los 1: wt
tendrá un valor de 10 para las observaciones con y=0 y de 1 para las observaciones con y=1