2 votos

Validación cruzada mitad-mitad con regresión logística: ¿existe una regla general para saber si es necesario el remuestreo?

Necesito realizar una regresión logística. El documento "Cross-Validation for Selecting a Model Selection Procedure" ( pdf ) parece sugerir que el mejor método para la selección de características es la validación cruzada (CV) de media muestra repetida (realizan 400 repeticiones), y para la evaluación del modelo es la CV de un solo uso. Sin embargo, tengo un conjunto de datos muy grande (63 mil observaciones). He leído que cuanto más grande sea el conjunto de datos, menos debemos preocuparnos por el sobreajuste. Por lo tanto, mis preguntas son:

  1. ¿Puedo conformarme con realizar la mitad del CV una vez?

  2. ¿Existe una regla general que relacione el tamaño del conjunto de datos con el número de repeticiones o, de forma más general, con la complejidad del procedimiento de selección del modelo (y posiblemente de la validación)?

    Sospecho que si existe tal regla general, en el caso de la regresión logística debería tener en cuenta no sólo el tamaño global de la muestra, sino también el número mínimo entre eventos y no eventos (como ocurre con el número de parámetros que tiene sentido incluir en una regresión logística).

Editar: Gracias Harshit por tu respuesta. La razón por la que quiero comparar diferentes modelos no es que quiera descartar las variables que tienen un coeficiente muy cercano a cero, sino que quiero elegir entre diferentes versiones de las mismas variables, es decir: si incluir una variable continua tal cual o como una variable binaria (usando la mediana como corte), y qué versión de las variables categóricas incluir (es decir, si agrupar las variables en sólo 2 categorías o más). Por tanto, no creo que la regresión Lasso tenga sentido en mi caso.

0voto

sha Puntos 579

Sugeriría que al menos se utilice CV=3 para la evaluación de su modelo. O bien puede dividir su conjunto de datos en un conjunto de pruebas y otro de entrenamiento en una proporción de 70:30, lo que implica que el 70% de los datos se tratarán como entrenamiento y el resto como conjunto de pruebas. Para la selección de características utilizando la regresión logística puede utilizar Lasso y la regularización de cresta también.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X