El error de entrenamiento se utiliza para estimar los parámetros del modelo. Pensemos en la regresión lineal: si nuestro modelo es $Y = X\beta + \varepsilon$ estimamos $\beta$ minimizando $\vert \vert Y - Xv\vert \vert_2^2$ en $v \in \mathbb R^p$ . Esto es sólo minimizar la pérdida de formación. ¿Por qué esto tiene sentido aquí? Porque estamos considerando modelos (es decir, diferentes valores de $v$ ) que tienen todas la misma complejidad, así que elegimos la que tenga la menor pérdida (o, en este caso, la mayor probabilidad si suponemos errores normales).
Cuando comparamos modelos de distinta complejidad, debemos tener en cuenta el rendimiento fuera de la muestra. Supongamos que en la regresión lineal estamos debatiendo la adición de un término cuadrático $\beta_2 x^2$ al modelo $y = \beta_0 + \beta_1x$ . El modelo $y = \beta_0 + \beta_1x$ es un caso especial de $y = \beta_0 + \beta_1x + \beta_2 x^2$ que tiene mayor complejidad, por lo que ya no es justo comparar las pérdidas.
Si está familiarizado con el AIC y el BIC, cuando dos modelos tienen la misma complejidad sólo estamos comparando probabilidades (es decir, pérdidas), pero cuando las dimensiones de los modelos (es decir, complejidades) difieren, también tenemos que tener esto en cuenta.
Pensemos ahora en métodos de aprendizaje automático como SVM: una vez que hemos fijado nuestros parámetros de ajuste, estamos considerando un montón de modelos con la misma flexibilidad, de modo que podemos elegir el que mejor se ajuste a los datos. Sólo cuando comparamos modelos de distinta complejidad (es decir, cuando ajustamos los parámetros de coste y del kernel, y quizá elegimos el kernel) tenemos que tener en cuenta el rendimiento fuera de la muestra.
En cuanto a cómo "utilizarlo", en realidad no presto atención al error de formación per se, pero puede aparecer en determinados cálculos a los que sí presto atención. Por ejemplo, en la regresión lineal, la suma de los residuos al cuadrado, un valor bastante útil, no es más que la pérdida total de entrenamiento si utilizamos la pérdida al cuadrado.