9 votos

¿Por qué se justifica la eliminación de la regresión cuando se hace una regresión múltiple?

¿No resulta en un sobreajuste? ¿Serían mis resultados más fiables si añadiera un procedimiento de navaja o bootstrap como parte del análisis?

8 votos

¿Quién dice que está justificado? Por supuesto que debería conducir a un sobreajuste.

2 votos

De hecho, se sugiere en muchos libros (¿todavía?), por ejemplo amazon.com/Estadística-Explicada-Guía-Introductoria-Científicos/ . Yo también he pensado lo mismo. Creo que tengo por lo menos 3-4 libros de estadística que no discuten el problema de sobreajuste en absoluto, cuando se introduce la regresión múltiple.

5 votos

Sinceramente, si en un libro de introducción a la estadística no se habla del sobreajuste y las pruebas excesivas, yo leería otro libro.

2voto

kainat Puntos 6

Creo que construir un modelo y probarlo son cosas distintas. La eliminación hacia atrás forma parte de la construcción del modelo. Jack knife y bootstrap se utilizan más para probarlo.

Sin duda se pueden obtener estimaciones más fiables con bootstrap y jack knife que con la simple eleiminación hacia atrás. Pero si realmente quiere probar el sobreajuste, la prueba definitiva es una muestra dividida, entrenar a unos y probar a otros. Leave-one-out es demasiado inestable y poco fiable para este propósito: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Creo que al menos el 10% de los sujetos deben estar fuera para obtener estimaciones más estables de la solidez del modelo. Y si tienes 20 sujetos, 2 sujetos siguen siendo muy pocos. Pero entonces se plantea la cuestión de si se dispone de una muestra suficientemente grande para construir un modelo que pueda aplicarse al resto de la población.

Espero que haya respondido a su pregunta, al menos en parte.

0 votos

Así que uno podría simplemente utilizar la validación cruzada con $k < n$ (o $k << n$ )?

0 votos

Introducción al aprendizaje estadístico analiza distintos enfoques del remuestreo (conjuntos de validación, validación cruzada con distintos números de grupos, bootstrapping) en el Capítulo 5, y la selección de modelos en el Capítulo 6.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X