59 votos

¿Por qué dividir por $2m$

Estoy haciendo un curso de aprendizaje automático. El profesor tiene un modelo de regresión lineal. Donde $h_\theta$ es la hipótesis (modelo propuesto. regresión lineal, en este caso), $J(\theta_1)$ es la función de costes, $m$ es el número de elementos del conjunto de entrenamiento, $x^{(i)}$ y $y^{(i)}$ son las variables del elemento del conjunto de entrenamiento en $i$

$$h_\theta = \theta_1x$$

$$J(\theta_1) = \frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$$

Lo que no entiendo es por qué divide la suma por $2m$ .

60voto

Mouffette Puntos 205

En $\frac{1}{m}$ es "promediar" el error cuadrático sobre el número de componentes para que el número de componentes no afecte a la función (véase la respuesta de John).

Así que ahora la pregunta es por qué hay un extra $\frac{1}{2}$ . En resumen, no importa. La solución que minimiza $J$ como lo ha escrito también minimizará $2J=\frac{1}{m} \sum_i (h(x_i)-y_i)^2$ . Esta última función, $2J$ puede parecer más "natural", pero el factor de $2$ no importa a la hora de optimizar.

La única razón por la que a algunos autores les gusta incluirla es porque cuando se toma la derivada con respecto a $x$ El $2$ desaparece.

15voto

kytwb Puntos 101

Supongo que el $\frac{1}{m}$ componente es obvio y, por tanto, me centraré en el $\frac{1}{2}$ parte. Personalmente dudo que tantos autores decidieran incluir este término tan confuso sólo para conseguir unas fórmulas de gradiente un poco más sencillas. Tenga en cuenta que hay maneras de encontrar la solución a las ecuaciones de regresión lineal que no implica gradientes. Proporcionaré otra explicación.

Cuando intentamos evaluar los modelos de aprendizaje automático, partimos de la base de que nuestras observaciones no son totalmente exactas, sino que contienen algún tipo de error. Por ejemplo, imaginemos que medimos una longitud con una regla de baja calidad. Uno de los supuestos más sencillos sería que introducimos algún error gaussiano:

$$ \epsilon \thicksim \mathcal{N}(0, 1) $$

Estos parámetros suelen ser seguros porque, de todos modos, realizamos algún tipo de normalización de los datos. Ahora podemos calcular la probabilidad de que nuestra predicción $\hat{y}$ es igual a nuestro valor objetivo $y$ hasta este error de medición:

$$ \hat{y} + \epsilon = y $$

Podemos tratar $\hat{y} + \epsilon$ como una nueva variable aleatoria $\widetilde{y} \sim \mathcal{N}(\hat{y}, 1)$ . Acabamos de añadir una constante $\hat{y}$ a nuestra variable aleatoria centrada en cero $\epsilon$ . Esta variable aleatoria $\widetilde{y}$ es nuestra estimación probabilística de la observación. En lugar de afirmar que para una entrada dada $x$ observaremos la salida $\hat{y}$ (lo que no sería cierto debido a los errores) afirmamos que lo más probable es que observemos algo en torno a $\hat{y}$ . Podemos calcular la probabilidad de observar realmente el $\hat{y}$ o $y$ así como cualquier otro número utilizando la PDF gaussiana:

$$ p(x) = \frac{1}{{\sigma \sqrt {2\pi } }}exp\left({{\frac{ - \left( {x - \mu } \right)^2 }{2\sigma^2}}}\right) \\ $$

En nuestro caso $\mu = \hat{y}$ y $\sigma = 1$ :

$$ p(y) = \frac{1}{{\sqrt {2\pi } }}exp\left({{\frac{ - \left( {y - \hat{y} } \right)^2 }{2}}}\right) \\ $$

Obsérvese que ésta es la función que realmente nos gustaría maximizar: la probabilidad de observar el valor verdadero. $y$ dado nuestro modelo. Dado que nuestro objetivo principal es la maximización, podemos aplicar una función monótona como el logaritmo e ignorar las constantes.

$$ log~p(y) = \frac{ - \left( {y - \hat{y} } \right)^2 }{2} + const $$

Una vez eliminados la constante y el signo menos, obtenemos el término de error al cuadrado para un único ejemplo de nuestro conjunto de datos. Podemos calcular la media de todos los ejemplos para obtener la fórmula MSE.

$$ MSE(y, \hat{y}) = \frac{1}{2m}\sum_i^m (y - \hat{y})^2 $$

Obsérvese que podemos derivar de forma similar la fórmula para la pérdida de regresión logística, es decir, la entropía cruzada o log-pérdida.

12voto

m0j0 Puntos 181

Dividiendo por $2m$ garantiza que la función de coste no dependa del número de elementos del conjunto de entrenamiento. Esto permite una mejor comparación entre modelos.

3voto

ShayPal5 Puntos 131

Me pregunté exactamente lo mismo cuando hice este curso, y acabé investigando un poco sobre el tema. Voy a dar una respuesta breve aquí, pero se puede leer una visión más detallada en una entrada de blog que escribí al respecto .

Creo que al menos parte de la razón de esos coeficientes de escala es que la regularización L² probablemente entró en el campo del aprendizaje profundo a través de la introducción del concepto relacionado, pero no idéntico, del decaimiento del peso.

El factor 0,5 está entonces ahí para obtener un bonito coeficiente sólo λ para el decaimiento del peso en el gradiente, y el escalado por m ... bueno, hay al menos 5 motivaciones diferentes que he encontrado o se me han ocurrido:

  1. Un efecto secundario del descenso de gradiente por lotes: En cambio, cuando se formaliza una única iteración de descenso de gradiente sobre todo el conjunto de entrenamiento, lo que da lugar al algoritmo a veces denominado descenso de gradiente por lotes, el factor de escala de 1/m, introducido para que la función de coste sea comparable entre conjuntos de datos de distintos tamaños, se aplica automáticamente al término de decaimiento del peso.
  2. Reescala al peso de un solo ejemplo: Véase la interesante intuición de grez.
  3. Representatividad del conjunto de entrenamiento: Tiene sentido reducir la regularización a medida que aumenta el tamaño del conjunto de entrenamiento, ya que estadísticamente también aumenta su representatividad de la distribución global. Básicamente, cuantos más datos tengamos, menos regularización necesitaremos.
  4. Haciendo λ comparables: Con suerte, al mitigar la necesidad de cambiar λ cuando cambia m, este escalado hace que la propia λ sea comparable entre conjuntos de datos de distintos tamaños. Esto hace que λ sea un estimador más representativo del grado real de regularización requerido por un modelo específico en un problema de aprendizaje específico.
  5. Valor empírico: El gran cuaderno de grez demuestra que esto mejora el rendimiento en la práctica.

1voto

Adnan Ali Puntos 196

Así lo explican en Coursera ( https://www.coursera.org/learn/machine-learning/supplement/nhzyF/cost-function )

La media se reduce a la mitad ( 1/2 ) para facilitar el cálculo del descenso de gradiente, ya que el término derivado de la función cuadrada anulará el término 1/2 plazo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X