6 votos

Es posible entrenar un clasificador?

Contexto: estoy construyendo un CNN clasificador para la categorización de texto. Tengo un conjunto de datos con 20 clases diferentes y aproximadamente 20.000 marcadas características (el 20 Noticias Grupo conjunto de datos para los interesados).

Me pregunto si me estoy entrenando mi modelo en muchas épocas, lo que haría muy bien en la clasificación de las características de mi conjunto de datos de entrenamiento, pero incapaz de adaptarse a los nuevos / ligeramente diferentes entradas. Es que lo que llamamos "sobreajuste"? El término no está claro para mí.

También me gustaría aclarar que el término "convergencia" de una red neuronal. Es esta convergencia alcanzado cuando la precisión se inicia estancamiento? O es relativa a la pérdida de valor?

5voto

Franck Dernoncourt Puntos 2128

Pankaj Daga de la expansión es genial, yo me ocuparé de la ilustración. Aquí está una curva típica cuando una formación de redes neuronales:

enter image description here

El reporte de la F1-score para el conjunto de pruebas debe ser el F1-score de la prueba de conjunto de la época en la que la F1-score en el conjunto de validación fue la más alta. (esto se llama "prueba de lo mejor" en la figura)

4voto

zhengtonic Puntos 566

Su comentario acerca de la época es la verdad. Por lo tanto, si usted utiliza muy pocos epoches, puede underfit y el uso de demasiados epoches puede resultar en el sobreajuste. Como usted sabe, siempre se puede aumentar la formación de precisión arbitrariamente por el aumento de la complejidad del modelo y el aumento de la cantidad de la época de los pasos. Una manera de tratar y aliviar este problema podría ser a través de la detención temprana. En pseudocódigo:

  • Dividir los datos en el entrenamiento, validación y prueba.
  • En cada época o cada Népoca:
    • evaluar la red de error en la validación del conjunto de datos.
    • si la validación de error es menor que el anterior mejor, guardar la red para la época.
  • El modelo final es el que tiene el mejor rendimiento en el conjunto de validación.

Esto es muy similar a la clásica cruz de validación de las técnicas que utiliza en la máquina de los enfoques de aprendizaje.

Con respecto a la convergencia, se suele decir que la red ha convergido a algunos mínimos locales si su error métrico de pesos y son relativamente constante a lo largo de varias iteraciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X