Tengo un enorme conjunto de datos ( $n$ unos cinco millones, $p$ alrededor de tres mil) para un problema de clasificación, donde mi interés son las probabilidades de clase predictivas para los datos de prueba, no el objetivo. Utilizaré muestras bootstrap para estimar las probabilidades suavizadas de varios modelos.
El problema es que cuando hago bootstrap de los casos, no todos los niveles de los predictores categóricos aparecen en todas las muestras. Dado que necesito parámetros para todos los niveles cuando trabajo con el conjunto de prueba, no estoy seguro de qué hacer.
Leí el libro de Agresti Análisis de datos categóricos pero no parece que se mencione.
He pensado en 2 posibilidades:
-
Inserte una composición base de casos variados en cada remuestreo de forma que se incluyan todos los niveles para todos los predictores.
-
Defina todos los niveles para cada variable categórica con referencia al esquema de datos y ejecute los modelos.
Tengo que pensar en esto porque mis remuestreos se extraen como datos CSV de una base de datos SQL y normalmente utilizaría read.csv()
que maneja automáticamente niveles, relaciones de preferencia y niveles para datos categóricos utilizando los casos del archivo CSV. (Extraer todos los datos en un solo csv no es una opción debido a las limitaciones de recursos).