Estoy aprendiendo R, y soy consciente de que el paquete e1071 tiene un naiveBayes
que toma el predictor y la pertenencia a la clase, y estima la clase previa utilizando la frecuencia relativa (estimación ML).
Me gustaría ver el impacto de tener una muestra que no está equilibrada entre clases (digamos que los hombres y las mujeres están representados en una proporción de 3:7 en los datos disponibles), cuando sé que para la población que me interesa, la prioridad de los hombres y las mujeres estaría mucho más cerca de 0,5:0,5 que de 0,3:0,7. La representación sesgada se debe a problemas prácticos de muestreo/encuesta.
He intentado hacer un muestreo descendente del subconjunto de mujeres para que el conjunto de entrenamiento refleje la proporción 1:1. ¿Hay alguna forma de utilizar naiveBayes
con una prioridad preestablecida que no se refleja en la frecuencia relativa en los datos? He mirado la documentación sobre e1071::naiveBayes
y no parece haber ninguna forma de especificar mi propio anterior.
¿Hay algún otro paquete que lo haga?