26 votos

Razón para no reducir el término de sesgo (intercepto) en la regresión

Para un modelo lineal $y=\beta_0+x\beta+\varepsilon$ el término de contracción es siempre $P(\beta) $ .

¿Cuál es la razón de que no reduzcamos el término de sesgo (intercepto) $\beta_0$ ? ¿Deberíamos reducir el término de sesgo en los modelos de redes neuronales?

0 votos

La librería liblinear para regresión logística utilizada en scikit-learn penaliza el término de sesgo (creo que se trata de un artefacto de implementación, el sesgo se maneja como una variable de entrada extra)

46voto

zowens Puntos 1417

Los elementos del aprendizaje estadístico de Hastie et al. definen la regresión de cresta del siguiente modo (Sección 3.4.1, ecuación 3.41): $$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$$ es decir, excluir explícitamente el término de intercepción $\beta_0$ de la pena de cresta.

Luego escriben:

[...] observe que la intercepción $\beta_0$ ha quedado fuera del término de penalización. La penalización del intercepto haría que el procedimiento dependiera del origen elegido para $Y$ es decir, añadiendo una constante $c$ a cada uno de los objetivos $y_i$ sería no se traduciría simplemente en un desplazamiento de las predicciones en la misma cantidad $c$ .

De hecho, en presencia del término de intercepción, añadir $c$ a todos $y_i$ simplemente conducirá a $\beta_0$ aumentando en $c$ y, en consecuencia, todos los valores previstos $\hat y_i$ también aumentará en $c$ . Esto no es cierto si se penaliza la interceptación: $\beta_0$ tendrá que aumentar menos de $c$ .

De hecho, hay varias propiedades interesantes y convenientes de la regresión lineal que dependen de la existencia de un término de intercepción adecuado (no penalizado). Por ejemplo, el valor medio de $y_i$ y el valor medio de $\hat y_i$ son iguales, y (en consecuencia) el coeficiente de correlación múltiple al cuadrado $R$ es igual al coeficiente de determinación $R^2$ : $$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$$ véase, por ejemplo, este hilo para una explicación: Interpretación geométrica del coeficiente de correlación múltiple $R$ y coeficiente de determinación $R^2$ .

Penalizar la interceptación llevaría a que todo eso dejara de ser cierto.

1 votos

Es un buen requisito que las predicciones sean invariables al añadir una constante a las observaciones $y_i$ . Sin embargo, hay que tener en cuenta que la escala de la respuesta y de las covariables sigue siendo importante y que la información a priori se refiere a una escala específica.

3voto

Valentin Kantor Puntos 176

Recordemos la finalidad de la contracción o regularización. Se trata de evitar que el algoritmo de aprendizaje sobreajuste los datos de entrenamiento o, lo que es lo mismo, que elija valores de los parámetros arbitrariamente grandes. Esto es más probable en conjuntos de datos con más de unos pocos ejemplos de entrenamiento en presencia de ruido (en "Learning from Data", de Yaser Abu-Mustafa, se aborda un debate muy interesante sobre la presencia de ruido y su impacto). Un modelo aprendido a partir de datos ruidosos sin regularización probablemente tendrá un rendimiento deficiente en algunos puntos de datos no vistos.

Con esto en mente, imagine que tiene puntos de datos 2D que desea clasificar en dos clases. Teniendo todos los parámetros de sesgo fijos, la variación del término de sesgo sólo moverá el límite hacia arriba o hacia abajo. Esto se puede generalizar a un espacio de mayor dimensión.

El algoritmo de aprendizaje no puede poner valores arbitrariamente grandes para el término de sesgo ya que esto resultará en un valor de pérdida posiblemente bruto (el modelo no se ajustará a los datos de entrenamiento). En otras palabras, dado un conjunto de entrenamiento, usted (o un algoritmo de aprendizaje) no puede alejar arbitrariamente el plano del verdadero.

Por lo tanto, no hay razón para reducir el término de sesgo, el algoritmo de aprendizaje encontrará el bueno sin riesgo de sobreajuste.

Una nota final: he visto en algún artículo que cuando se trabaja en espacios de alta dimensión para la clasificación, no hay una necesidad estricta de modelar el término de sesgo. Esto podría funcionar para datos linealmente separables, ya que con más dimensiones añadidas, hay más posibilidades de separar las dos clases.

1 votos

¿Puede dar referencias de algún artículo que diga que "cuando se trabaja en espacios de alta dimensión para la clasificación, no hay una necesidad estricta de modelizar el término de sesgo"?

2voto

Nick Russo Puntos 51

El plazo de interceptación no es en absoluto inmune a la contracción. La formulación general de "contracción" (es decir, regularización) coloca el término de regularización en la función de pérdida, por ejemplo:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

Dónde $f(\beta)$ suele estar relacionada con una norma de Lebesgue, y $\lambda$ es un escalar que controla cuánto peso ponemos en el término de contracción.

Al poner el término de contracción en la función de pérdida de esta manera, tiene un efecto sobre todos los coeficientes del modelo. Sospecho que su pregunta surge de una confusión sobre la notación en la que el $\beta$ (en $P(\beta)$ ) es un vector de todos los coeficientes, incluidos $\beta_0$ . Su modelo lineal probablemente se escribiría mejor como $y = X \beta + \epsilon$ donde $X$ es la "matriz de diseño", es decir, sus datos con una columna de $1's$ a la izquierda (para tomar la intercepción).

Ahora bien, no puedo hablar de regularización para redes neuronales. Es posible que para las redes neuronales que desea evitar la contracción del término de sesgo o de otro tipo de diseño de la función de pérdida regularizada diferente de la formulación que he descrito anteriormente. No lo sé. Pero sospecho firmemente que los pesos y los términos de sesgo se regularizan juntos.

2 votos

Depende de la convención, pero por ejemplo en The Elements of Statistical Learning de Hastie et al. se define la regresión ridge de forma que no se penaliza el intercepto (véase mi respuesta). Sospecho que esto puede ser más estándar que otra cosa.

0 votos

@amoeba tu respuesta es buena para el caso de regresión lineal, que es lo que se pide en esta pregunta. En una regresión no lineal usando NN, si tienes términos de sesgo en una NN con capas ocultas, tu lógica sólo se aplica al sesgo de la último capa. Comprobación 9.2.2 de la NN de Bishops para el reconocimiento de patrones

2voto

Christian Hagelid Puntos 121

Supongamos que uno de los predictores $x_i$ tiene el mismo valor distinto de cero en todos los ejemplos de entrenamiento. Nos gustaría que su coeficiente $\beta_i$ se estimará como cero. Para ver por qué, supongamos $\beta_i$ no es cero, y $x_i$ toma un valor diferente en algún ejemplo de prueba. Nuestra predicción cambiará en una cantidad arbitraria que no tiene justificación en los datos de entrenamiento.

Al no reducir el intercepto $\beta_0$ en la regresión ridge, nos aseguramos de que $\beta_i$ será cero. Si redujéramos el intercepto, entonces $\beta_i$ no será cero, ya que $x_i$ juega el papel de una segunda intercepción y dividirá $\beta_0$ .

Usted podría argumentar que debemos normalizar $x_i$ restando su media y haciéndola cero en todos los ejemplos de entrenamiento. Sin embargo, ese acto de normalización supone implícitamente que el intercepto está excluido de la penalización de la cresta.

1voto

xenocyon Puntos 111

No estoy seguro de que la respuesta anterior de David Marx sea del todo correcta; según Andrew Ng, por convención el coeficiente de sesgo/intercepto no suele regularizarse en una regresión lineal y, en cualquier caso, que esté regularizado o no no supone una diferencia significativa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X