No hay ninguna garantía de que con pequeñas pesas es realmente mejor. Lazo y la cresta de regresión de trabajo mediante la imposición de un conocimiento previo/supuestos/limitaciones en la solución. Este enfoque funciona bien si el estado de la/supuestos/restricciones que se adapta bien a la distribución real que genera los datos, y puede que no funcione bien lo contrario. Con respecto a la simplicidad/complejidad, no es de los modelos que son más simples o más complejas. Más bien, es la familia de modelos en estudio.
Desde una perspectiva geométrica, el lazo y la cresta de regresión imponer restricciones en las pesas. Por ejemplo, el común de la pena/de Lagrange forma de cresta de regresión:
$$\min_\beta \|y - X\beta\|_2^2 + \lambda \|\beta\|_2^2$$
puede ser re-escrita en el equivalente de la restricción de la forma:
$$\min_\beta \|y - X\beta\|_2^2 \quad \text{s.t. } \|\beta\|_2^2 \le c$$
Esto deja claro que cresta de regresión restringe las ponderaciones que se encuentran dentro de un hypersphere cuyo radio se rige por el parámetro de regularización. Del mismo modo, el lazo restringe las ponderaciones que se encuentran dentro de un polytope cuyo tamaño se rige por el parámetro de regularización. Estas restricciones significa que la mayoría de la original espacio en el parámetro está fuera de límites, y la búsqueda de los pesos óptimos dentro de un mucho menor subespacio. Este menor subespacio puede ser considerado menos "complejo" que el del espacio.
Desde una perspectiva Bayesiana, uno puede pensar acerca de la posterior distribución a través de todas las opciones posibles de pesos. Ambos lazo y la cresta de regresión son equivalentes a MAPA de estimación después de la colocación de un previo en los pesos (lazo utiliza un Laplaciano antes y la cresta de regresión utiliza una Gaussiana antes). Un estrecho posterior corresponde a una mayor restricción y una menor complejidad, debido a los altos posterior de la densidad se da a un pequeño conjunto de parámetros. Por ejemplo, la multiplicación de la probabilidad de la función por un estrecho de Gauss antes de (que corresponde a una gran cresta de la pena), que produce una más estrecha posterior.
Una de las principales razones para imponer restricciones/priores es que la elección de la modelo óptimo de forma más restringida de la familia, es menos probable que overfit que la elección de un menos restringido de la familia. Esto es debido a que el menos restringido de la familia proporciona más maneras para que se ajuste a los datos, y es cada vez más probable que uno de ellos será capaz de adaptarse a las fluctuaciones al azar en el conjunto de entrenamiento. Para un tratamiento más formales, ver el sesgo y la varianza de equilibrio. Esto no necesariamente significa que la elección de un modelo a partir de una más restringida que la familia funcione bien. Conseguir un buen rendimiento requiere que la restricción de la familia en realidad contiene buenos modelos. Esto significa que tenemos que elegir un antes/restricción que coinciden con el tipo específico de problema a la mano.