¿Es posible puntuar cada muestra de un conjunto de entrenamiento de forma que una muestra con una puntuación N afecte a la red como si se entrenara con N de esas muestras? También tengo curiosidad por la posibilidad de utilizar puntuaciones negativas.
Respuesta
¿Demasiados anuncios?Sí, puedes incorporar esto a tu función de pérdida. Por ejemplo, digamos que está utilizando el error al cuadrado como función de pérdida para una red que realiza una regresión. La función de pérdida sería típicamente:
$$\sum_{i=1}^{n} (y_i - f(x_i))^2$$
donde $x_i$ y $y_i$ son los $i$ las entradas/salidas de ejemplo con las que se entrena la red, y $f(x_i)$ es el resultado previsto correspondiente. Lo que se quiere hacer es ponderar los ejemplos de entrenamiento de forma diferente. En este caso, utilizarías un vector de pesos $w$ , donde $w_i$ es el peso asignado al $i$ ejemplo. La función de pérdida sería:
$$\sum_{i=1}^{n} w_i (y_i - f(x_i))^2$$
Por ejemplo, si quiere que la red se comporte como si hubiera visto el ejemplo $j$ dos veces y todos los demás ejemplos una vez, a continuación, establezca $w_i$ a $1$ para todos $i \ne j$ , y establecer $w_j$ a $2$ .
Sin embargo, los pesos negativos no tienen realmente sentido aquí. Las reglas de actualización cambian los parámetros de la red para reducir la función de pérdida. Aplicar un peso negativo a un ejemplo cambiaría el signo de la contribución de ese ejemplo a la función de pérdida y haría que el algoritmo de aprendizaje intentara aumentar el error en ese ejemplo.