10 votos

¿Por qué regularizar todos los parámetros de la misma manera?

Mi pregunta se refiere a la regularización en la regresión lineal y regresión logística. Actualmente estoy haciendo la semana 3 de Andrew Ng, de la Máquina de Aprendizaje del curso en Coursera. Entiendo cómo sobreajuste puede ser un problema común, y tengo la intuición de cómo regularización puede reducir el sobreajuste. Mi pregunta es ¿podemos mejorar nuestros modelos de la regularización de los diferentes parámetros de diferentes maneras?


Ejemplo:

Digamos que estamos tratando de encajar w0 + w1 * x1 + w2 * x2 + w3 * x3 + w4 * x4. Esta es la pregunta acerca de por qué nos penalizan por alto w1 valores de la misma manera que penalizan por alto w2 valores.

Si no sabemos nada acerca de cómo nuestras características (x1,x2,x3,x4) fueron construidos, tiene sentido tratar a todos de la misma manera, cuando hacemos de regularización: un alto w1 valor debe producir la mayor cantidad de "pena" como un alto w3 valor.

Pero supongamos que tenemos información adicional: digamos que solo había 2 características originalmente: x1 y x2. Una línea underfitting de nuestro conjunto de entrenamiento y queríamos una más de garabatos en forma de decisión de la frontera, por lo que hemos construido x3 = (x1)^2 y x4 = (x2)^3. Ahora podemos tener modelos más complejos, pero el más complejo, el más corremos el riesgo de sobreajuste nuestro modelo a los datos de entrenamiento. Así que queremos lograr un equilibrio entre la minimización de la función de costo y minimizar nuestro modelo de complejidad. Bueno, los parámetros que representan un mayor exponenciales (x3,x4) son drasticly el aumento de la complejidad de nuestro modelo. Así que no deberíamos penalizar para obtener una alta w3,w4 valores que penalizamos por alto w1,w2 valores?

5voto

avid Puntos 161

Bueno, los parámetros que representan un mayor exponenciales (x3,x4) son drasticly el aumento de la complejidad de nuestro modelo. Así que no deberíamos penalizar para obtener una alta w3,w4 valores que penalizamos por alto w1,w2 valores?

La razón por la que decimos que la adición de cuadráticos o cúbicos de términos aumenta la complejidad del modelo es que conduce a un modelo con más parámetros en general. No esperamos que un término cuadrático para ser en sí y de por sí más complejo que un término lineal. La una cosa que está clara es que, siendo todas las otras cosas iguales, un modelo con más covariables es más complejo.

Para los fines de la regularización, que generalmente se aplica una nueva escala de todas las variables tengan la misma media y varianza de modo que, a priori, son tratados como igualmente importantes. Si algunas covariables, de hecho tienen una relación más fuerte con la variable dependiente de los demás, entonces, por supuesto, el procedimiento de regularización no penalizar a aquellos covariables tan fuertemente, porque ellos tendrán una mayor contribuciones para el ajuste del modelo.

Pero lo que si usted realmente hacer pensar a priori que una covariable es más importante que otro, y no se puede cuantificar esta creencia, y desea que el modelo para reflejar? Entonces probablemente lo que quiero hacer es utilizar un modelo Bayesiano y ajustar los priores de los coeficientes para que coincida con su creencia preexistente. No por casualidad, algunos familiares los procedimientos de regularización puede ser interpretado como casos especiales de la Bayesiano de modelos. En particular, la regresión ridge es equivalente a una normal antes de los coeficientes, y el lazo de regresión es equivalente a un Laplaciano antes.

0voto

dotancohen Puntos 595

Gran observaciones. Para responder a su pregunta "¿Deberíamos penalizar 'más'?" Así, obtenemos cualquier cosa, desde la imposición de un a priori de la pena en algunas variables?

Podemos hacer lo contrario en la práctica, recuerde re-escalamiento de las variables de entrada para la misma magnitud. Diferentes magnitudes da diferentes a priori 'importancia' para algunas de las variables. No sabemos cuáles son importantes y cuáles no. Hay toda una línea de investigación sobre la búsqueda de la derecha "características" o función de selección y representación de aprendizaje.

Así pues, aquí dos maneras de pensar acerca de ella.

Uno puede comenzar con una simple base lineal hipótesis y no de regularización. A continuación, tiene una hipótesis distinta de la modelo, teniendo cuadráticas y otras interacciones del espacio de entrada. Seguro. A continuación, agregue la regularización y así sucesivamente. Así que esta "búsqueda" que es lo simple a lo complejo. Más de una paramétrico manera de hacerlo ya que producen la hipótesis sobre la base.

O, una alternativa no paramétrica de' manera sería empezar con una realidad compleja hipótesis, y dejar que la regularización de hacer el trabajo (por ejemplo, sancionar a la complejidad y llegar a algo más simple) a través de la validación cruzada.

El punto de regularización y nonparametrics es hacer las cosas de forma automática. Dejar que la máquina haga el trabajo.

Aquí es un buen recurso sobre la base de funciones.

Y por último, $L^p$ espacios y normas claras las cosas aún más.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X