Mi pregunta se refiere a la regularización en la regresión lineal y regresión logística. Actualmente estoy haciendo la semana 3 de Andrew Ng, de la Máquina de Aprendizaje del curso en Coursera. Entiendo cómo sobreajuste puede ser un problema común, y tengo la intuición de cómo regularización puede reducir el sobreajuste. Mi pregunta es ¿podemos mejorar nuestros modelos de la regularización de los diferentes parámetros de diferentes maneras?
Ejemplo:
Digamos que estamos tratando de encajar w0 + w1 * x1 + w2 * x2 + w3 * x3 + w4 * x4
. Esta es la pregunta acerca de por qué nos penalizan por alto w1 valores de la misma manera que penalizan por alto w2 valores.
Si no sabemos nada acerca de cómo nuestras características (x1,x2,x3,x4) fueron construidos, tiene sentido tratar a todos de la misma manera, cuando hacemos de regularización: un alto w1 valor debe producir la mayor cantidad de "pena" como un alto w3 valor.
Pero supongamos que tenemos información adicional: digamos que solo había 2 características originalmente: x1 y x2. Una línea underfitting de nuestro conjunto de entrenamiento y queríamos una más de garabatos en forma de decisión de la frontera, por lo que hemos construido x3 = (x1)^2
y x4 = (x2)^3
. Ahora podemos tener modelos más complejos, pero el más complejo, el más corremos el riesgo de sobreajuste nuestro modelo a los datos de entrenamiento. Así que queremos lograr un equilibrio entre la minimización de la función de costo y minimizar nuestro modelo de complejidad. Bueno, los parámetros que representan un mayor exponenciales (x3,x4) son drasticly el aumento de la complejidad de nuestro modelo. Así que no deberíamos penalizar para obtener una alta w3,w4 valores que penalizamos por alto w1,w2 valores?