Necesito realizar una regresión logística. El documento "Cross-Validation for Selecting a Model Selection Procedure" ( pdf ) parece sugerir que el mejor método para la selección de características es la validación cruzada (CV) de media muestra repetida (realizan 400 repeticiones), y para la evaluación del modelo es la CV de un solo uso. Sin embargo, tengo un conjunto de datos muy grande (63 mil observaciones). He leído que cuanto más grande sea el conjunto de datos, menos debemos preocuparnos por el sobreajuste. Por lo tanto, mis preguntas son:
-
¿Puedo conformarme con realizar la mitad del CV una vez?
-
¿Existe una regla general que relacione el tamaño del conjunto de datos con el número de repeticiones o, de forma más general, con la complejidad del procedimiento de selección del modelo (y posiblemente de la validación)?
Sospecho que si existe tal regla general, en el caso de la regresión logística debería tener en cuenta no sólo el tamaño global de la muestra, sino también el número mínimo entre eventos y no eventos (como ocurre con el número de parámetros que tiene sentido incluir en una regresión logística).
Editar: Gracias Harshit por tu respuesta. La razón por la que quiero comparar diferentes modelos no es que quiera descartar las variables que tienen un coeficiente muy cercano a cero, sino que quiero elegir entre diferentes versiones de las mismas variables, es decir: si incluir una variable continua tal cual o como una variable binaria (usando la mediana como corte), y qué versión de las variables categóricas incluir (es decir, si agrupar las variables en sólo 2 categorías o más). Por tanto, no creo que la regresión Lasso tenga sentido en mi caso.