Puedo decir algo acerca de la propensión a overfit en (A) frente a (B)?
A condición de que ambas redes cubrir un rango suficiente, mallas de finura en realidad no tiene nada que ver con el sobreajuste en este problema (aunque una rejilla gruesa podría underfit si salta sobre una rentabilidad del intervalo). No es como si pruebas demasiados valores que de alguna manera va a cambiar lo de fuera de la muestra.* En el caso de estas penalizado regresiones, sin duda queremos optimizar nuestro verosimilitud penalizada la función para los valores de $\lambda$, y no importa cómo muchos de los valores de $\lambda$ ponemos a prueba, porque fuera de la muestra de desempeño por un determinado conjunto de datos y se fija el particionamiento es totalmente determinista. Más al punto, el ejemplo de métrica no es en absoluto alterado por la cantidad de valores de $\lambda$ de la prueba. Un grueso cuadrícula puede decir que pasa sobre el mínimo absoluto en el ejemplo de métrica, pero encontrar el mínimo absoluto, probablemente, no es deseable en primer lugar, porque hyperparameters tienden a ser mal estimadas, y muestra finita propiedades significa que las limitaciones de los datos será una fuente de ruido en la estimación que le abruman ligeros cambios en la distancia entre los puntos de cuadrícula: el error estándar de la estimación tiende a empujar a las diferencias en la cuadrícula de finura.
Si usted está realmente preocupado de que fuera de la muestra de las métricas de rendimiento podría ser demasiado optimista, podría adoptar la 1 error estándar de la regla, que recoge la mayoría de los modelo regularizado dentro de 1 error estándar de la mínima. De esa manera, estás siendo un poco más conservador y recogiendo menos complejo modelo.
Puedo determinar el óptimo de la cuadrícula de finura? Cómo?
El LARS el algoritmo no a priori definir qué valores de $\lambda$ a comprobar; por el contrario, $\lambda$ cambia continuamente y el algoritmo comprueba los valores de $\lambda$ para que un coeficiente que va de 0 a un valor distinto de cero. Los valores de $\lambda$ donde un nuevo coeficiente es distinto de cero se conservan, con la observación de que el coeficiente de caminos son seccionalmente lineales en el caso de el lasso, así que no hay pérdida de información por almacenar fuera de los nudos en ese caso. LARS sólo funciona cuando el coeficiente de caminos son seccionalmente lineales, sin embargo. La cresta de la pena nunca se reduce a un coeficiente precisamente a cero, de modo que todos los de su coeficiente de caminos son suaves y siempre distinto de cero; asimismo red elástica regresiones (excluyendo el caso de la red elástica regresiones que también son lasso regresiones).
Pero la mayoría de la gente usa GLMNET porque a menudo es más rápido. En términos de la determinación de lo cuadrícula de $\lambda$ buscar más, recomiendo la lectura de la GLMNET artículo "la Regularización de las Rutas de acceso para los Modelos Lineales Generalizados a través de Coordenadas Descenso" por Jerome Friedman, Trevor Hastie, y Rob Tibshirani. En ella, desarrollar un algoritmo eficiente para la estimación de la cresta, lazo y red elástica regresiones. El algoritmo de cheques por un valor de $\lambda_\text{max}$ que $\beta$ es el vector cero, y luego identifica un valor mínimo $\lambda_\text{min}$ en relación al $\lambda_\text{max}$. Finalmente, se genera una secuencia de valores entre los dos de manera uniforme en la escala logarítmica. Esta red es suficiente para la mayoría de propósitos, aunque no omitir la propiedad que usted sabrá exactamente el momento en el coeficiente se estima en un valor distinto de cero. Caliente comienza se utilizan para proporcionar soluciones mucho más rápidamente, y es compatible con muchos de los más comunes GLMs.
*Usted podría estar pensando acerca de esto desde la perspectiva de una red neuronal artificial, donde la detención temprana es a veces utilizado para llevar a cabo la regularización, pero eso es totalmente un problema no relacionado (es decir, que el algoritmo de optimización se impidió llegar a un nivel óptimo, por lo que el modelo está obligado a ser menos complejo).