4 votos

Sobreajuste en la validación cruzada

Tengo una variable de respuesta (y) y 20 variables independientes (Xs). Quiero seleccionar varias Xs en la regresión lineal, pero no estoy seguro de cuántas variables deben seleccionarse. Para seleccionar el mejor número de variables, utilizo la suma de los residuos cuadrados (Res) en la validación cruzada de 10 veces dadas N variables seleccionadas (N=2~20). El proceso se repite 1.000 veces para cada N. Mi idea es que Res debería primero disminuir, ya que más variables podrían explicar mejor y, y luego debería aumentar, ya que demasiadas variables conducirían a un ajuste excesivo. Para mi sorpresa, la Res disminuye continuamente a medida que aumenta N (véase la figura). No sé cómo explicarlo. ¿Significa que las 20 variables contribuyen a y, o que se ha producido un sobreajuste?

P.D: hay unos 600 puntos de datos. La Res se calcula como la suma del cuadrado de la diferencia entre la y observada y la y predicha en cada validación cruzada de 10 veces.

enter image description here

3voto

unk2 Puntos 36

Es difícil decirlo con certeza. Veo dos posibilidades:

  1. calculas los residuos de forma incorrecta, ya sea utilizando todos los datos o (en el peor de los casos) sólo el 90% que has utilizado para entrenar tu modelo
  2. todas las variables entregan alguna información. 20 variables con 600 puntos de datos está en un rango que la regresión lineal puede manejar, al menos si son variables binarias o datos numéricos.
  3. la mayoría de las variables entregan información y acabas teniendo suerte con las pocas que no lo hacen. Si no se sobreajusta (lo que es poco probable con la relación datos/variables), se tiene una probabilidad casi igual de que los residuos del 10% de los datos de prueba disminuyan aunque no haya una relación real.

Algunas sugerencias:

  • Utilizar algún tipo de regresión penalizada con selección de características incorporada (por ejemplo, lasso, red elástica) y comparar los resultados
  • Observa la distribución de la suma de los residuos en cada uno de los 10 pliegues de la validación cruzada. ¿Disminuye siempre? ¿O sólo en 7 de los 10 casos?
  • Asegúrese de corregir la suma de los residuos correctos
  • Examine de forma crítica la forma de seleccionar qué característica incluir. Asegúrese de que siempre sólo la información del 90% de los datos que es su conjunto de entrenamiento en ese pliegue del esquema de validación cruzada.
  • Generar una serie de variables que contengan sólo ruido gaussiano aleatorio podría ayudar a ver qué ocurre. Sabrás con certeza que no deberían ayudar a predecir nada.

3voto

patfla Puntos 1

Podría probar un método de selección conservador, como el bic. Si el bic favorece al modelo completo, es muy poco probable que se haya sobreajustado en la validación cruzada. Para hacer una selección bic por pasos o hacia atrás (que es rápida) se establece el nivel de significación del valor p en $Pr(\chi^2_1>\log[n])$ . Por lo tanto, si se ajusta el modelo completo y todos sus estadísticos t son mayores que $\sqrt{\log[n]}$ entonces es probable que las 20 variables sean importantes. En su caso, esto es aproximadamente $|T|>2.5$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X