Validación cruzada mitad-mitad con regresión logística: ¿existe una regla general para saber si es necesario el remuestreo?

Question

Validación cruzada mitad-mitad con regresión logística: ¿existe una regla general para saber si es necesario el remuestreo?

Preguntado el 6 de Julio, 2017: Cuando se hizo la pregunta
134 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Necesito realizar una regresión logística. El documento "Cross-Validation for Selecting a Model Selection Procedure" ( pdf ) parece sugerir que el mejor método para la selección de características es la validación cruzada (CV) de media muestra repetida (realizan 400 repeticiones), y para la evaluación del modelo es la CV de un solo uso. Sin embargo, tengo un conjunto de datos muy grande (63 mil observaciones). He leído que cuanto más grande sea el conjunto de datos, menos debemos preocuparnos por el sobreajuste. Por lo tanto, mis preguntas son:

¿Puedo conformarme con realizar la mitad del CV una vez?
¿Existe una regla general que relacione el tamaño del conjunto de datos con el número de repeticiones o, de forma más general, con la complejidad del procedimiento de selección del modelo (y posiblemente de la validación)?

Sospecho que si existe tal regla general, en el caso de la regresión logística debería tener en cuenta no sólo el tamaño global de la muestra, sino también el número mínimo entre eventos y no eventos (como ocurre con el número de parámetros que tiene sentido incluir en una regresión logística).

Editar: Gracias Harshit por tu respuesta. La razón por la que quiero comparar diferentes modelos no es que quiera descartar las variables que tienen un coeficiente muy cercano a cero, sino que quiero elegir entre diferentes versiones de las mismas variables, es decir: si incluir una variable continua tal cual o como una variable binaria (usando la mediana como corte), y qué versión de las variables categóricas incluir (es decir, si agrupar las variables en sólo 2 categorías o más). Por tanto, no creo que la regresión Lasso tenga sentido en mi caso.

Preguntado el 6 de Julio, 2017 por Federico Tedeschi

Answer 1

1 Respuestas

Answer 2

0voto

sha Puntos 579

Sugeriría que al menos se utilice CV=3 para la evaluación de su modelo. O bien puede dividir su conjunto de datos en un conjunto de pruebas y otro de entrenamiento en una proporción de 70:30, lo que implica que el 70% de los datos se tratarán como entrenamiento y el resto como conjunto de pruebas. Para la selección de características utilizando la regresión logística puede utilizar Lasso y la regularización de cresta también.

Respondido el 6 de Julio, 2017 por sha (579 Puntos )

Validación cruzada mitad-mitad con regresión logística: ¿existe una regla general para saber si es necesario el remuestreo?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Validación cruzada mitad-mitad con regresión logística: ¿existe una regla general para saber si es necesario el remuestreo?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: