4 votos

error de formación: ¿para qué?

¿Qué sentido tiene el error de entrenamiento en el objetivo de la regresión (es decir, hacer predicciones)?

Podrías decir algo así como "bueno, verás, el error de entrenamiento puede ayudarte a determinar qué modelo de complejidad es el mejor para utilizar. "

Y a eso, algunos dirían: "No se puede. Un error de entrenamiento bajo podría significar que tu modelo se está ajustando a los datos con los que lo estás entrenando, es decir, que está sobreajustado".

¿Qué sentido tiene calcular el error de entrenamiento si no es una buena medida predictiva del rendimiento?

Especialmente cuando pasamos y decimos, al diablo con el error de formación, sólo tiene que utilizar el error de validación ..

¿Cuándo utilizaremos el error de formación?

Un error de entrenamiento bajo puede ser indicativo de sobreajuste.. ¿es ese su único uso?

1voto

Paulius Puntos 369

El error de entrenamiento se utiliza para estimar los parámetros del modelo. Pensemos en la regresión lineal: si nuestro modelo es $Y = X\beta + \varepsilon$ estimamos $\beta$ minimizando $\vert \vert Y - Xv\vert \vert_2^2$ en $v \in \mathbb R^p$ . Esto es sólo minimizar la pérdida de formación. ¿Por qué esto tiene sentido aquí? Porque estamos considerando modelos (es decir, diferentes valores de $v$ ) que tienen todas la misma complejidad, así que elegimos la que tenga la menor pérdida (o, en este caso, la mayor probabilidad si suponemos errores normales).

Cuando comparamos modelos de distinta complejidad, debemos tener en cuenta el rendimiento fuera de la muestra. Supongamos que en la regresión lineal estamos debatiendo la adición de un término cuadrático $\beta_2 x^2$ al modelo $y = \beta_0 + \beta_1x$ . El modelo $y = \beta_0 + \beta_1x$ es un caso especial de $y = \beta_0 + \beta_1x + \beta_2 x^2$ que tiene mayor complejidad, por lo que ya no es justo comparar las pérdidas.

Si está familiarizado con el AIC y el BIC, cuando dos modelos tienen la misma complejidad sólo estamos comparando probabilidades (es decir, pérdidas), pero cuando las dimensiones de los modelos (es decir, complejidades) difieren, también tenemos que tener esto en cuenta.

Pensemos ahora en métodos de aprendizaje automático como SVM: una vez que hemos fijado nuestros parámetros de ajuste, estamos considerando un montón de modelos con la misma flexibilidad, de modo que podemos elegir el que mejor se ajuste a los datos. Sólo cuando comparamos modelos de distinta complejidad (es decir, cuando ajustamos los parámetros de coste y del kernel, y quizá elegimos el kernel) tenemos que tener en cuenta el rendimiento fuera de la muestra.

En cuanto a cómo "utilizarlo", en realidad no presto atención al error de formación per se, pero puede aparecer en determinados cálculos a los que sí presto atención. Por ejemplo, en la regresión lineal, la suma de los residuos al cuadrado, un valor bastante útil, no es más que la pérdida total de entrenamiento si utilizamos la pérdida al cuadrado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X