Supongamos que tengo algún conjunto de datos. Le hago una regresión. Tengo un conjunto de datos de prueba independiente. Pruebo la regresión en este conjunto. Busque el RMSE en los datos de prueba. ¿Cómo debo concluir que mi algoritmo de aprendizaje ha hecho bien, me refiero a qué propiedades de los datos debo mirar para concluir que el RMSE que tengo es bueno para los datos?
Respuestas
¿Demasiados anuncios?El RMSE para el entrenamiento y los conjuntos de pruebas debe ser muy similar si ha creado un buen modelo. Si el RMSE para el conjunto de pruebas es mucho mayor que el del conjunto de entrenamiento, es probable que haya sobreapagado mal los datos, es decir, que haya creado un modelo que prueba bien en la muestra, pero tiene poco valor predictivo cuando se prueba fuera de la muestra.
No puede corregir un valor de umbral determinado para RMSE. Tenemos que considerar la comparación de RMSE de conjuntos de datos de prueba y de tren. Si su modelo es bueno, entonces su RMSE de datos de prueba es bastante simillar para entrenar el conjunto de datos. De lo contrario, por debajo de las condiciones se cumplen.
RMSE de prueba > RMSE de tren => OVER FITTING de los datos.
RMSE de prueba BAJO AJUSTE de los datos.