Suponga que tiene dos variables predictoras altamente correlacionadas $x,z$ y supongamos que ambos están centrados y escalados (con media cero y varianza uno). Entonces la pena de cresta en el vector de parámetros es $\beta_1^2 + \beta_2^2$ mientras que el término de penalización del lazo es $ \mid \beta_1 \mid + \mid \beta_2 \mid$ . Ahora bien, como el modelo se supone altamente colineal, por lo que $x$ y $z$ más o menos pueden sustituirse entre sí en la predicción $Y$ , por lo que muchas combinaciones lineales de $x, z$ donde simplemente sustituimos en parte $x$ para $z$ funcionarán de forma muy similar como predictores, por ejemplo $0.2 x + 0.8 z, 0.3 x + 0.7 z$ o $0.5 x + 0.5 z$ serán igual de buenos como predictores. Ahora mire estos tres ejemplos, la penalización del lazo en los tres casos es igual, es 1, mientras que la penalización de la cresta difiere, es respectivamente 0,68, 0,58, 0,5, por lo que la penalización de la cresta preferirá una ponderación igual de las variables colineales mientras que la penalización del lazo no podrá elegir. Esta es una de las razones por las que la cresta (o, más generalmente, la red elástica, que es una combinación lineal de las penalizaciones del lazo y de la cresta) funcionará mejor con los predictores colineales: Cuando los datos dan pocas razones para elegir entre diferentes combinaciones lineales de predictores colineales, el lazo se limitará a "vagar", mientras que la cresta tiende a elegir una ponderación igual. Esto último podría ser una mejor suposición para su uso con datos futuros. Y, si es así con los datos actuales, podría aparecer en la validación cruzada como mejores resultados con ridge.
Podemos ver esto de forma bayesiana: La cresta y el lazo implican información previa diferente, y la información previa implicada por la cresta tiende a ser más razonable en tales situaciones. (Esta explicación la aprendí, más o menos, del libro "Statistical Learning with Sparsity The Lasso and Generalizations" de Trevor Hastie, Robert Tibshirani y Martin Wainwright, pero en este momento no he podido encontrar una cita directa).
Pero el OP parece tener un problema diferente:
Sin embargo, mis resultados muestran que el error absoluto medio de Lasso o Elastic es de alrededor de 0.61 mientras que esta puntuación es 0.97 para la regresión de cresta
Ahora, el lazo también está haciendo efectivamente la selección de variables, puede establecer algunos coeficientes exactamente a cero. Ridge no puede hacer eso (excepto con probabilidad cero.) Así que podría ser que con los datos de OP, entre las variables colineales, algunas son efectivas y otras no actúan en absoluto (y el grado de colinealidad lo suficientemente bajo como para que esto pueda ser detectado.) Ver ¿Cuándo debo utilizar el lazo frente a la cresta? donde se discute esto. Un análisis detallado necesitaría más información de la que se da en la pregunta.
1 votos
¿por qué cree que ridge debería tener mejores resultados? ¿cuál es el tamaño de su muestra?
1 votos
¿Qué significa "más riguroso a la regresión"?
1 votos
Relacionado y muy útil: stats.stackexchange.com/questions/25611/ stats.stackexchange.com/questions/866/