Mi valor óptimo de contracción es alto después de comparar el MSE para diferentes combinaciones de parámetros. Me pregunto qué significa para la estructura de los datos o la estructura de la señal. ¿Puedo decir que este conjunto de datos tiene muchos predictores relevantes?
Respuesta
¿Demasiados anuncios?El valor del índice de contracción $\eta$ (también conocida como tasa de aprendizaje) en el contexto del aumento de gradiente no significa nada en particular. Nos ayuda a controlar la velocidad a la que nuestra función de predicción adapta su forma.
$\eta$ está vagamente relacionada con el tamaño del conjunto de datos. En igualdad de condiciones, un conjunto de datos más grande debería requerir un "mayor" $\eta$ para converger a una forma estable que un conjunto de datos más pequeño; con el conjunto de datos más grande no necesitaríamos explorar nuestro espacio de funciones con tanta diligencia. Sin embargo, el índice de contracción por sí solo no guarda relación con la estructura de la señal ni indica si nuestro conjunto de datos contiene características predictivas relevantes.