Estoy trabajando en un problema de regresión logística de alta dimensión. Tengo 40 variables ( p=40 ) y 900 muestras ( n=900 ), pero sólo 30 de esas muestras están en la clase que intento predecir.
Estoy ajustando un modelo predictivo utilizando la máxima verosimilitud penalizada (regresión ridge, mediante glmnet ). Para ello es necesario establecer un valor para el término de penalización λ . Típico, λ se determina mediante validación cruzada.
También he estado leyendo Frank Harrell que sugiere mantener los grados de libertad de un modelo por debajo de una fracción del "tamaño de muestra límite", m . Como regla general, sugiere df<m/15 . En mi caso, donde m=30 Esto significaría mantener los grados de libertad por debajo de 2.
Los grados de libertad efectivos en la regresión de cresta se pueden calcular en función de λ , df(λ)=p∑j=1d2j/(d2j+λ) donde dj son los valores singulares de la matriz muestral ( ESL , ecuación 3.50).
En la regresión de crestas (u otras técnicas de máxima verosimilitud penalizada), ¿es aconsejable elegir alguna vez λ utilizando el tamaño de muestra límite m ¿en lugar de elegirlo mediante validación cruzada? ¿En qué casos puede ser aconsejable?