Contexto: estoy construyendo un CNN clasificador para la categorización de texto. Tengo un conjunto de datos con 20 clases diferentes y aproximadamente 20.000 marcadas características (el 20 Noticias Grupo conjunto de datos para los interesados).
Me pregunto si me estoy entrenando mi modelo en muchas épocas, lo que haría muy bien en la clasificación de las características de mi conjunto de datos de entrenamiento, pero incapaz de adaptarse a los nuevos / ligeramente diferentes entradas. Es que lo que llamamos "sobreajuste"? El término no está claro para mí.
También me gustaría aclarar que el término "convergencia" de una red neuronal. Es esta convergencia alcanzado cuando la precisión se inicia estancamiento? O es relativa a la pérdida de valor?