He completado Andrew Ng, de la Máquina de Aprendizaje curso alrededor de hace un año, y ahora estoy escribiendo mi Escuela secundaria de Matemáticas de la exploración sobre el funcionamiento de la Regresión Logística y técnicas para optimizar el rendimiento. Una de estas técnicas es, por supuesto, la regularización.
El objetivo de la regularización es para evitar el sobreajuste por la ampliación de la función de costo para incluir el objetivo del modelo de sencillez. Podemos lograr esto al penalizar el tamaño de pesos mediante la adición de la función de coste de cada uno de los pesos al cuadrado, multiplicado por algunos de regularización paramater.
Ahora, la Máquina algoritmo de Aprendizaje, el objetivo será reducir el tamaño de las pesas, pero manteniendo la precisión en el conjunto de entrenamiento. La idea es que vamos a llegar a algún punto en el medio donde se puede producir un modelo que generaliza en los datos y no tratar de encajar en todo el ruido estocástico por ser menos complejo.
Mi confusión es por qué penalizamos el tamaño de las pesas? ¿Por qué los pesos mayores a crear modelos más complejos, y más pequeños pesos crear más simple/el más suave de los modelos? Andrew Ng, de las reclamaciones en su conferencia que la explicación es difícil de enseñar, pero supongo que estoy buscando esta explicación ahora.
Prof. Ng hecho dar un ejemplo de cómo la nueva función de coste puede causar que el peso de características (es decir. x^3 y x^4) tienden a cero, por lo que el modelo de licenciatura es reducido, pero esto no crea una explicación más completa.
Mi intuición es que las pequeñas pesas tienden a ser más "aceptable" en funciones con el mayor de los exponentes de los más pequeños exponentes (debido a que las características con pequeñas pesas que son como la base de la función). Menor pesos implica menor "contribuciones" a las características con las de orden superior. Pero esta intuición no es muy concreto.