4 votos

Niveles de datos categóricos ausentes en las muestras Bootstrap

Tengo un enorme conjunto de datos ( $n$ unos cinco millones, $p$ alrededor de tres mil) para un problema de clasificación, donde mi interés son las probabilidades de clase predictivas para los datos de prueba, no el objetivo. Utilizaré muestras bootstrap para estimar las probabilidades suavizadas de varios modelos.

El problema es que cuando hago bootstrap de los casos, no todos los niveles de los predictores categóricos aparecen en todas las muestras. Dado que necesito parámetros para todos los niveles cuando trabajo con el conjunto de prueba, no estoy seguro de qué hacer.

Leí el libro de Agresti Análisis de datos categóricos pero no parece que se mencione.

He pensado en 2 posibilidades:

  1. Inserte una composición base de casos variados en cada remuestreo de forma que se incluyan todos los niveles para todos los predictores.

  2. Defina todos los niveles para cada variable categórica con referencia al esquema de datos y ejecute los modelos.

Tengo que pensar en esto porque mis remuestreos se extraen como datos CSV de una base de datos SQL y normalmente utilizaría read.csv() que maneja automáticamente niveles, relaciones de preferencia y niveles para datos categóricos utilizando los casos del archivo CSV. (Extraer todos los datos en un solo csv no es una opción debido a las limitaciones de recursos).

3voto

mat_geek Puntos 1367

Se puede utilizar perfectamente el muestreo bootstrap estratificado. Si se dispone de las proporciones de los niveles de clase en la población, creo que basta con hacer del nivel de clase un estrato y muestrear los casos con cada estrato proporcionalmente a su representación en la población. El muestreo bootstrap estratificado consiste en realizar un muestreo con sustitución un número determinado de veces en cada estrato.

Edición de la respuesta original: Un aspecto del problema que no se abordó originalmente cuando se planteó la pregunta era una forma sensata de reducir el número de predictores. El valor de la estratificación es reducir la variación global. Con tantos predictores, es posible que algunos no sean muy útiles, por lo que el número de niveles podría reducirse sin perjudicar seriamente el valor de los predictores para la clasificación. Para enfatizar lo que dije en la respuesta original, dado que el bootstrap muestrea con reemplazo de cada estrato individual, ningún estrato quedará fuera en ninguna muestra bootstrap. Creo que esto responde al comentario reciente de @kjetilbHalvorsen.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X