Recordemos la finalidad de la contracción o regularización. Se trata de evitar que el algoritmo de aprendizaje sobreajuste los datos de entrenamiento o, lo que es lo mismo, que elija valores de los parámetros arbitrariamente grandes. Esto es más probable en conjuntos de datos con más de unos pocos ejemplos de entrenamiento en presencia de ruido (en "Learning from Data", de Yaser Abu-Mustafa, se aborda un debate muy interesante sobre la presencia de ruido y su impacto). Un modelo aprendido a partir de datos ruidosos sin regularización probablemente tendrá un rendimiento deficiente en algunos puntos de datos no vistos.
Con esto en mente, imagine que tiene puntos de datos 2D que desea clasificar en dos clases. Teniendo todos los parámetros de sesgo fijos, la variación del término de sesgo sólo moverá el límite hacia arriba o hacia abajo. Esto se puede generalizar a un espacio de mayor dimensión.
El algoritmo de aprendizaje no puede poner valores arbitrariamente grandes para el término de sesgo ya que esto resultará en un valor de pérdida posiblemente bruto (el modelo no se ajustará a los datos de entrenamiento). En otras palabras, dado un conjunto de entrenamiento, usted (o un algoritmo de aprendizaje) no puede alejar arbitrariamente el plano del verdadero.
Por lo tanto, no hay razón para reducir el término de sesgo, el algoritmo de aprendizaje encontrará el bueno sin riesgo de sobreajuste.
Una nota final: he visto en algún artículo que cuando se trabaja en espacios de alta dimensión para la clasificación, no hay una necesidad estricta de modelar el término de sesgo. Esto podría funcionar para datos linealmente separables, ya que con más dimensiones añadidas, hay más posibilidades de separar las dos clases.
0 votos
La librería liblinear para regresión logística utilizada en scikit-learn penaliza el término de sesgo (creo que se trata de un artefacto de implementación, el sesgo se maneja como una variable de entrada extra)