Estoy intentando entrenar una red neuronal de clasificación, pero las etiquetas que tengo tienen bastante ruido (alrededor del 30% de las etiquetas son erróneas).
En efecto, la pérdida de entropía cruzada funciona, pero me preguntaba si existen alternativas más eficaces en este caso o si la pérdida de entropía cruzada es la óptima.
No estoy seguro, pero estoy pensando en "recortar" un poco la pérdida de entropía cruzada, de forma que la pérdida para un punto de datos no sea mayor que algún límite superior, ¿funcionará?
Gracias.
Actualización
Según la respuesta de Lucas, obtuve lo siguiente para las derivadas de la salida de predicción $y$ y la entrada de la función softmax $z$ . Así que supongo que esencialmente es la adición de un término de suavizado $\frac{3}{7N}$ a los derivados.
$$p_i=0.3/N+0.7y_i$$ $$l=-\sum t_i\log(p_i)$$ $$\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i}$$ $$\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}$$ Derivadas para la pérdida de entropía cruzada original: $$\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i}$$ $$\frac{\partial l}{\partial z_i}=y_i-t_i$$ Por favor, hágamelo saber si me equivoco. Gracias.
Actualización
Acabo de leer un documento de Google que aplica la misma fórmula que en la respuesta de Lucas pero con diferentes interpretaciones.
En la Sección 7 Regularización de modelos mediante suavizado de etiquetas
Sin embargo, esto (la pérdida de entropía cruzada) puede causar dos problemas. En primer lugar, puede dar lugar a sobreajuste: si el modelo aprende a asignar toda la probabilidad a la etiqueta a la etiqueta "groundtruth" para cada ejemplo de entrenamiento, no se garantiza la generalizar. En segundo lugar, fomenta que las diferencias entre el y todas las demás, y esto, combinado con el gradiente gradiente limitado $l/z_k$ reduce la capacidad de la Intuitivamente, esto ocurre porque el modelo se vuelve demasiado confiado en sus predicciones.
Pero en lugar de añadir el término de suavizado a las predicciones, lo añadieron a la verdad sobre el terreno que resultó ser útil.
En nuestros experimentos de ImageNet con K = 1000 clases, utilizamos u(k) = 1/1000 y $\epsilon$ = 0.1. Para ILSVRC 2012, hemos hallado una mejora mejora de alrededor del 0,2% absoluto tanto para el error top-1 como para el error top-5. error.