¿No resulta en un sobreajuste? ¿Serían mis resultados más fiables si añadiera un procedimiento de navaja o bootstrap como parte del análisis?
Así que uno podría simplemente utilizar la validación cruzada con $k < n$ (o $k << n$ )?
¿No resulta en un sobreajuste? ¿Serían mis resultados más fiables si añadiera un procedimiento de navaja o bootstrap como parte del análisis?
Creo que construir un modelo y probarlo son cosas distintas. La eliminación hacia atrás forma parte de la construcción del modelo. Jack knife y bootstrap se utilizan más para probarlo.
Sin duda se pueden obtener estimaciones más fiables con bootstrap y jack knife que con la simple eleiminación hacia atrás. Pero si realmente quiere probar el sobreajuste, la prueba definitiva es una muestra dividida, entrenar a unos y probar a otros. Leave-one-out es demasiado inestable y poco fiable para este propósito: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html
Creo que al menos el 10% de los sujetos deben estar fuera para obtener estimaciones más estables de la solidez del modelo. Y si tienes 20 sujetos, 2 sujetos siguen siendo muy pocos. Pero entonces se plantea la cuestión de si se dispone de una muestra suficientemente grande para construir un modelo que pueda aplicarse al resto de la población.
Espero que haya respondido a su pregunta, al menos en parte.
Introducción al aprendizaje estadístico analiza distintos enfoques del remuestreo (conjuntos de validación, validación cruzada con distintos números de grupos, bootstrapping) en el Capítulo 5, y la selección de modelos en el Capítulo 6.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
8 votos
¿Quién dice que está justificado? Por supuesto que debería conducir a un sobreajuste.
2 votos
De hecho, se sugiere en muchos libros (¿todavía?), por ejemplo amazon.com/Estadística-Explicada-Guía-Introductoria-Científicos/ . Yo también he pensado lo mismo. Creo que tengo por lo menos 3-4 libros de estadística que no discuten el problema de sobreajuste en absoluto, cuando se introduce la regresión múltiple.
5 votos
Sinceramente, si en un libro de introducción a la estadística no se habla del sobreajuste y las pruebas excesivas, yo leería otro libro.
3 votos
La eliminación hacia atrás (y la selección hacia delante) sigue tendiendo a sobreajustarse si se utiliza la validación cruzada leave-one-out (por ejemplo, PRESS) como criterio de selección de características.
0 votos
Agradecería sugerencias de libros. (Aunque esto se está saliendo un poco del tema).
5 votos
@mmh no es muy introductorio, pero recomiendo encarecidamente la lectura del capítulo 4 del libro de Frank Harrell Estrategias de modelización de la regresión (bueno, no sólo vale la pena leer el capítulo 4, pero esa parte es especialmente relevante para esta discusión).